語料庫 是什麼?

Corpus — 語料庫 的完整解釋

語料庫是大量結構化的文本集合,用於語言研究和自然語言處理,提供真實語言使用的範例,用於訓練和評估模型。

容易混淆

語料庫 vs 一般文本檔 vs 資料集

語料庫:為語言研究或 NLP 特別整理過的文本集合

一般文本檔:只是文字檔,不一定有標註或結構

資料集:更廣義,任何可供模型使用的資料都算

最關鍵的區別:語料庫是為語言分析而整理的文本資源。

記住這句就好

文字有整理、有標註,才比較像語料庫。

實際案例

訓練中文模型

前:只用隨手抓來的網頁文字,品質不穩定

後:整理新聞、百科、對話和專業文本,形成可用語料庫

語言研究

前:研究者只能憑感覺討論語言現象

後:透過標註過的語料庫,統計詞性、句法和用法分布

深入了解

語料庫常會加入詞性標註、句法標註、語意標註或說話者資訊,讓文本不只是「可讀」,還能「可分析」

它常用在自然語言處理、文本分類、語言模型訓練和語言學研究

好的語料庫不只看量,更看代表性、乾淨度和標註一致性

情境判斷

Q1(直覺題): 一堆沒整理的聊天記錄,能直接算語料庫嗎?

→ 不一定,通常還要看有沒有結構、清理和標註。

Q2(判斷題): 語料庫越大就一定越好嗎?

→ 不一定,若品質差、領域不對或標註亂掉,量大也不會有效。

相關術語

常見問題

語料庫和訓練資料一樣嗎?

很接近,但語料庫更強調文本整理和語言用途。

一定要有標註才叫語料庫嗎?

不一定,但有標註通常更方便研究和訓練。

中文也需要語料庫嗎?

當然需要,而且中文分詞、斷句和語境都很依賴高品質語料。