語料庫是什麼？

不一定，但有標註通常更方便研究和訓練。

Corpus — 語料庫的完整解釋

語料庫是大量結構化的文本集合，用於語言研究和自然語言處理，提供真實語言使用的範例，用於訓練和評估模型。

語料庫 vs 一般文本檔 vs 資料集

語料庫：為語言研究或 NLP 特別整理過的文本集合

一般文本檔：只是文字檔，不一定有標註或結構

資料集：更廣義，任何可供模型使用的資料都算

最關鍵的區別：語料庫是為語言分析而整理的文本資源。

文字有整理、有標註，才比較像語料庫。

訓練中文模型

前：只用隨手抓來的網頁文字，品質不穩定

後：整理新聞、百科、對話和專業文本，形成可用語料庫

語言研究

前：研究者只能憑感覺討論語言現象

後：透過標註過的語料庫，統計詞性、句法和用法分布

語料庫常會加入詞性標註、句法標註、語意標註或說話者資訊，讓文本不只是「可讀」，還能「可分析」

它常用在自然語言處理、文本分類、語言模型訓練和語言學研究

好的語料庫不只看量，更看代表性、乾淨度和標註一致性

Q1（直覺題）： 一堆沒整理的聊天記錄，能直接算語料庫嗎？

→ 不一定，通常還要看有沒有結構、清理和標註。

Q2（判斷題）： 語料庫越大就一定越好嗎？

→ 不一定，若品質差、領域不對或標註亂掉，量大也不會有效。

常見問題

很接近，但語料庫更強調文本整理和語言用途。

不一定，但有標註通常更方便研究和訓練。

當然需要，而且中文分詞、斷句和語境都很依賴高品質語料。