Corpus（語料庫）是什麼？完整定義與解說

不一定，但有標註通常更方便研究和訓練。

你有沒有想過，AI 學語言時到底是從哪裡看懂句子？

你可以把語料庫想成「給模型讀的超大閱讀材料」：它不是隨便一堆文字，而是整理過、可以拿來分析和訓練的文本集合。

它很重要，因為模型不可能憑空學語言，語料庫就是讓它理解詞彙、句子和語境的基礎土壤。

容易混淆

語料庫 vs 一般文本檔 vs 資料集

語料庫：為語言研究或 NLP 特別整理過的文本集合

一般文本檔：只是文字檔，不一定有標註或結構

資料集：更廣義，任何可供模型使用的資料都算

最關鍵的區別：語料庫是為語言分析而整理的文本資源。

文字有整理、有標註，才比較像語料庫。

訓練中文模型

前：只用隨手抓來的網頁文字，品質不穩定

後：整理新聞、百科、對話和專業文本，形成可用語料庫

語言研究

前：研究者只能憑感覺討論語言現象

後：透過標註過的語料庫，統計詞性、句法和用法分布

語料庫常會加入詞性標註、句法標註、語意標註或說話者資訊，讓文本不只是「可讀」，還能「可分析」

它常用在自然語言處理、文本分類、語言模型訓練和語言學研究

好的語料庫不只看量，更看代表性、乾淨度和標註一致性

Q1（直覺題）： 一堆沒整理的聊天記錄，能直接算語料庫嗎？

→ 不一定，通常還要看有沒有結構、清理和標註。

Q2（判斷題）： 語料庫越大就一定越好嗎？

→ 不一定，若品質差、領域不對或標註亂掉，量大也不會有效。

語料庫和訓練資料一樣嗎？

很接近，但語料庫更強調文本整理和語言用途。

一定要有標註才叫語料庫嗎？

不一定，但有標註通常更方便研究和訓練。

中文也需要語料庫嗎？

當然需要，而且中文分詞、斷句和語境都很依賴高品質語料。