語言模型(Language Model)是什麼?

語言模型是一種機器學習模型,用於預測給定文本序列中下一個詞彙或字符的概率分佈,是自然語言處理的基礎。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

語言模型(Language Model)是什麼? 自然語言處理機器學習

你每次打字時,手機為什麼常常能猜到下一個詞,這背後是什麼模型?

你可以把它想成一個專門猜下一個字或詞的語言機器,根據前文預測後面最可能出現什麼。

語言模型是一種機器學習模型,用於預測給定文本序列中下一個詞彙或字符的概率分佈,是自然語言處理的基礎。

容易混淆

大型語言模型 語言模型是總稱,大型語言模型是規模更大、通常建立在 Transformer 上的版本。

字典 字典只存定義,語言模型會學詞與詞怎麼接、在哪些語境出現。

記住這句就好

看前文,猜下一個。

實際案例

手機輸入法 打出「今天天氣很」時,系統會猜下一個常見詞,這就是語言模型在運作。

機器翻譯 模型要先理解前後語境,再決定下一個字該怎麼接,才能翻得順。

算法與應用

傳統 n-gram 語言模型只看前幾個詞,神經網路語言模型和 Transformer 則能看更長上下文。評估時常看困惑度,越低代表越會猜。

情境判斷

Q1(直覺題): 如果你現在遇到一個 手機輸入法 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。

Q2(判斷題): 如果你把它和 字典 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。

常見問題

語言模型 最容易跟 大型語言模型 混淆嗎?

語言模型是總稱,大型語言模型是規模更大、通常建立在 Transformer 上的版本。

什麼情況會用到 語言模型?

你可以把它想成一個專門猜下一個字或詞的語言機器,根據前文預測後面最可能出現什麼。 實務上只要你要處理和這個概念相符的任務,就會用到它。

初學者最常錯在哪裡?

字典只存定義,語言模型會學詞與詞怎麼接、在哪些語境出現。

範例考題

某金融服務公司規劃導入生成式 AI,在評估模型部署方式時,基於內部控制與治理要求,企業考慮將大型語言模型建置於公司可管理環境,而非直接採用外部雲端服務。下列何者最能合理說明此部署決策的潛在優勢?

  • A. 有助提升模型回覆穩定性並降低隨機性影響
  • B. 可降低敏感資料需傳輸至外部服務的風險 ✓ 正確答案
  • C. 可直接減少模型訓練與維運所需資源投入
  • D. 可避免模型輸出偏差與幻覺(Hallucination)問題

解析:

將模型部署在公司內部可管理環境的核心優勢是降低敏感資料傳輸至外部的風險,符合金融業的內部控制與治理要求。

某企業導入大型語言模型作為客服助理。模型已具備穩定語言能力,但在回覆偏好一致性與組織規範遵循方面仍需優化,團隊因此規劃導入人類反饋強化學習(RLHF)流程,下列何者最不屬於 RLHF 階段的典型技術活動?

  • A. 透過人工評估方式建立偏好資料,使模型的不同候選輸出可反映人類主觀品質差異
  • B. 訓練一個能依據人類偏好判斷輸出品質的模型,作為模型優化過程中的回饋依據
  • C. 依據品質評估結果,調整模型生成策略,使其輸出更符合偏好導向的行為表現
  • D. 以未標註語料為主進行長週期表示學習訓練,以提升模型基礎語言建模能力 ✓ 正確答案

解析:

RLHF 流程包含三個階段:收集人類偏好資料、訓練獎勵模型、用強化學習優化生成策略。以未標註語料進行基礎語言建模屬於預訓練階段,不屬於 RLHF 的技術活動。