---
title: "對齊校準（Alignment）"
slug: alignment
language: zh-TW
source: https://aiterms.tw/terms/alignment
updated_at: 2026-04-29
tags: [大型語言模型, 生成式AI, 模型訓練, AI倫理與治理, 強化學習]
ipas_term: false
---

# 對齊校準（Alignment）

> **你有沒有遇過模型很會答題，卻不一定照你的意思做？**
>
> 你可以把對齊校準想成把 AI 的行為拉回到人類想要的方向，讓它不只會生成文字，還會更符合意圖、價值和安全邊界。它關心的是模型「想做什麼」和「應該做什麼」能不能對上。
>
> 這很重要，因為模型能力愈強，若方向沒有對齊，錯誤就不只是答錯，而是會放大成有害行為。

### 容易混淆

> **對齊校準 vs 微調**
>
> 微調是讓模型更會某個任務。
>
> 對齊校準是讓模型更符合人類期待。
>
> 最關鍵的區別：微調管能力，對齊管方向。
>
> **對齊校準 vs AI安全**
>
> 對齊校準是安全的一部分。
>
> AI安全範圍更大，還包含監控、限制和測試。
>
> 最關鍵的區別：對齊偏模型內部，安全偏整體系統。
>
> **對齊校準 vs RLHF**
>
> RLHF 是常見的對齊方法。
>
> 對齊校準是更大的目標。
>
> 最關鍵的區別：方法和目標不同。

### 記住這句就好

> 讓模型不只會答，還要答得像你希望的那樣。

### 實際案例

> **拒答有害請求**
>
> 當使用者要求模型教你做危險事情時，對齊校準會讓模型學會拒絕或轉向安全替代方案，而不是照單全收。
>
> **客服回覆風格**
>
> 同一個客服模型如果沒有對齊，可能回得太冷、太冗長或太武斷，對齊後才會更符合品牌和使用者期待。

### 算法與應用

> **常見做法**
>
> RLHF、獎勵建模、憲法式AI原則、規則微調與安全評估，通常會一起用。
>
> **實務重點**
>
> 對齊不是一次性訓練，而是訓練、評估、修正、再評估的循環。

### 情境判斷

> **Q1（直覺題）：** 一個模型很會回答，但常常不聽指令中的限制，這時該看什麼？
>
> → 對齊校準問題，因為模型能力有了，但行為沒有對上人類意圖。
>
> **Q2（判斷題）：** 只要加大模型規模，就能自動解決對齊問題嗎？
>
> → 不一定，這要看情況。能力變強不代表方向會自己變正，對齊通常還是要靠方法和評估。

### 常見問題

> **Q：對齊校準一定會讓模型變笨嗎？**
>
> 不一定，但過度保守可能會犧牲一些創造力或回答自由度。
>
> **Q：對齊和安全哪個先做？**
>
> 通常會一起規劃，因為對齊不夠時，再多安全護欄也可能不夠。
>
> **Q：對齊可以完全解決幻覺嗎？**
>
> 不能，它能改善行為，但不會把所有錯誤消掉。
>
> **Q：為什麼現在大家一直談對齊？**
>
> 因為模型越強，錯誤輸出的影響越大，對齊就越重要。

### 相關術語

> - **人類回饋強化學習**：最常見的對齊方法之一
> - **獎勵建模**：把人類偏好變成可訓練訊號
> - **憲法式AI原則**：另一種用規則引導對齊的方法
> - **人工智慧安全**：對齊要服務的更大目標
> - **人工智慧倫理**：對齊背後的價值基礎

---

來源：https://aiterms.tw/terms/alignment
快查頁：https://aiterms.tw/terms/alignment
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-alignment