非結構化資料 是什麼?
Unstructured Data — 非結構化資料 的完整解釋
非結構化資料是指沒有預定義格式或組織方式的資料,難以直接儲存和分析,例如文字、圖像、音訊和影片。
容易混淆
非結構化資料 vs 結構化資料 非結構化資料沒有固定欄位 結構化資料一眼就能對欄位 最關鍵的區別:格式是否規整
非結構化資料 vs 半結構化資料 非結構化資料更自由 半結構化資料像 JSON、XML,還有一些標記 最關鍵的區別:有沒有部分規則可循
非結構化資料 vs 雜訊資料 非結構化資料不等於髒資料 它只是格式自由,不代表沒價值 最關鍵的區別:格式和品質是兩件事
記住這句就好
沒有整齊欄位,不代表不能分析,只是要先轉成模型看得懂的形式。
實際案例
客服錄音 錄音先轉文字,再抽特徵或做摘要,才能進一步分析客訴主題
醫療影像 X 光、MRI 和超音波都屬於非結構化資料,通常需要影像模型先處理
算法與應用
| 資料型態 | 文字、影像、音訊最常見 | 都不是整齊表格 | | 前處理 | 通常要轉成向量或標籤 | 模型才能吃 | | 特徵抽取 | 從原始內容抓出可用訊號 | 這步很關鍵 | | 應用場景 | 搜尋、分類、摘要、辨識 | 都很常見 |
情境判斷
Q1(直覺題):你有一堆客服錄音,想找出常見問題,這算什麼資料? → 通常是非結構化資料,因為它還不是整齊欄位。
Q2(判斷題):JSON 檔裡有固定欄位,還算非結構化嗎? → 通常不算,JSON 比較接近半結構化資料。
相關術語
常見問題
非結構化資料可以直接拿去訓練嗎?
很多時候不行,通常要先轉成模型能用的表示。
圖片也算非結構化資料嗎?
算,因為它不是固定欄位的表格格式。
它為什麼在 AI 裡這麼重要?
因為真實世界大量資料都長這樣,能不能處理它,常決定系統能不能落地。