對齊校準是什麼？

Alignment — 對齊校準的完整解釋

對齊校準是指使AI模型，特別是大型語言模型，的行為與人類意圖、價值觀和倫理規範相符的過程，降低潛在風險。

容易混淆

對齊校準 vs 微調

微調是讓模型更會某個任務。

對齊校準是讓模型更符合人類期待。

最關鍵的區別：微調管能力，對齊管方向。

對齊校準 vs AI安全

對齊校準是安全的一部分。

AI安全範圍更大，還包含監控、限制和測試。

最關鍵的區別：對齊偏模型內部，安全偏整體系統。

對齊校準 vs RLHF

RLHF 是常見的對齊方法。

對齊校準是更大的目標。

最關鍵的區別：方法和目標不同。

記住這句就好

讓模型不只會答，還要答得像你希望的那樣。

實際案例

拒答有害請求

當使用者要求模型教你做危險事情時，對齊校準會讓模型學會拒絕或轉向安全替代方案，而不是照單全收。

客服回覆風格

同一個客服模型如果沒有對齊，可能回得太冷、太冗長或太武斷，對齊後才會更符合品牌和使用者期待。

算法與應用

常見做法

RLHF、獎勵建模、憲法式AI原則、規則微調與安全評估，通常會一起用。

實務重點

對齊不是一次性訓練，而是訓練、評估、修正、再評估的循環。

情境判斷

Q1（直覺題）： 一個模型很會回答，但常常不聽指令中的限制，這時該看什麼？

→ 對齊校準問題，因為模型能力有了，但行為沒有對上人類意圖。

Q2（判斷題）： 只要加大模型規模，就能自動解決對齊問題嗎？

→ 不一定，這要看情況。能力變強不代表方向會自己變正，對齊通常還是要靠方法和評估。

常見問題

對齊校準一定會讓模型變笨嗎？

不一定，但過度保守可能會犧牲一些創造力或回答自由度。

對齊和安全哪個先做？

通常會一起規劃，因為對齊不夠時，再多安全護欄也可能不夠。

對齊可以完全解決幻覺嗎？

不能，它能改善行為，但不會把所有錯誤消掉。

為什麼現在大家一直談對齊？

因為模型越強，錯誤輸出的影響越大，對齊就越重要。

← 回到對齊校準快查頁

對齊校準是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

對齊校準一定會讓模型變笨嗎？

對齊和安全哪個先做？

對齊可以完全解決幻覺嗎？

為什麼現在大家一直談對齊？

對齊校準 是什麼？

容易混淆

記住這句就好

實際案例

算法與應用

情境判斷

相關術語

相關術語

常見問題

對齊校準一定會讓模型變笨嗎？

對齊和安全哪個先做？

對齊可以完全解決幻覺嗎？

為什麼現在大家一直談對齊？

對齊校準是什麼？