---
title: "語料庫（Corpus）"
slug: corpus
language: zh-TW
source: https://aiterms.tw/terms/corpus
updated_at: 2026-04-29
tags: [自然語言處理, 資料處理, AI基礎, 模型訓練, 大型語言模型]
ipas_term: false
---

# 語料庫（Corpus）

> **你有沒有想過，AI 學語言時到底是從哪裡看懂句子？**
>
> 你可以把語料庫想成「給模型讀的超大閱讀材料」：它不是隨便一堆文字，而是整理過、可以拿來分析和訓練的文本集合。
>
> 它很重要，因為模型不可能憑空學語言，語料庫就是讓它理解詞彙、句子和語境的基礎土壤。

### 容易混淆

> **語料庫 vs 一般文本檔 vs 資料集**
>
> 語料庫：為語言研究或 NLP 特別整理過的文本集合
>
> 一般文本檔：只是文字檔，不一定有標註或結構
>
> 資料集：更廣義，任何可供模型使用的資料都算
>
> 最關鍵的區別：語料庫是為語言分析而整理的文本資源。

### 記住這句就好

> 文字有整理、有標註，才比較像語料庫。

### 實際案例

> **訓練中文模型**
>
> 前：只用隨手抓來的網頁文字，品質不穩定
>
> 後：整理新聞、百科、對話和專業文本，形成可用語料庫
>
> **語言研究**
>
> 前：研究者只能憑感覺討論語言現象
>
> 後：透過標註過的語料庫，統計詞性、句法和用法分布

### 深入了解

> 語料庫常會加入詞性標註、句法標註、語意標註或說話者資訊，讓文本不只是「可讀」，還能「可分析」
>
> 它常用在自然語言處理、文本分類、語言模型訓練和語言學研究
>
> 好的語料庫不只看量，更看代表性、乾淨度和標註一致性

### 情境判斷

> **Q1（直覺題）：** 一堆沒整理的聊天記錄，能直接算語料庫嗎？
>
> → 不一定，通常還要看有沒有結構、清理和標註。
>
> **Q2（判斷題）：** 語料庫越大就一定越好嗎？
>
> → 不一定，若品質差、領域不對或標註亂掉，量大也不會有效。

### 常見問題

> **Q：語料庫和訓練資料一樣嗎？**
>
> 很接近，但語料庫更強調文本整理和語言用途。
>
> **Q：一定要有標註才叫語料庫嗎？**
>
> 不一定，但有標註通常更方便研究和訓練。
>
> **Q：中文也需要語料庫嗎？**
>
> 當然需要，而且中文分詞、斷句和語境都很依賴高品質語料。

### 相關術語

> - **自然語言處理**：語料庫是它的基礎資源之一
> - **語言模型**：理解語料庫，才能理解模型從哪裡學語言
> - **文本分類**：很多分類模型都要靠語料庫訓練
> - **分詞**：語料庫常會先經過這一步處理
> - **嵌入表示**：把語料庫轉成模型可用表示時常會用到

---

來源：https://aiterms.tw/terms/corpus
快查頁：https://aiterms.tw/terms/corpus
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-corpus