---
title: "人工智慧安全（AI Safety）"
slug: ai-safety
language: zh-TW
source: https://aiterms.tw/terms/ai-safety
updated_at: 2026-04-29
tags: [AI倫理與治理, 模型評估, 模型訓練, 機器學習]
ipas_term: false
---

# 人工智慧安全（AI Safety）

> **你有沒有看過聊天機器人回答得很順，卻順到開始亂講？**
>
> 你可以把人工智慧安全想成替 AI 裝護欄，讓它就算理解錯、推理錯，也不要做出危險或有害的結果。它關心的不是模型看起來多聰明，而是它在真實世界會不會惹麻煩。
>
> 這很重要，因為 AI 一旦接上工具、權限和真實資料，錯一次就可能是刪檔、誤判、外洩，後果不會只停在畫面上。

### 容易混淆

> **AI安全 vs AI倫理**
>
> 安全看會不會造成傷害。
>
> 倫理看應不應該這樣做。
>
> 最關鍵的區別：安全偏風險，倫理偏價值。
>
> **AI安全 vs 對齊校準**
>
> 對齊校準是讓模型更符合人類意圖。
>
> AI安全是更大的範圍，包含對齊、測試、監控和限制。
>
> 最關鍵的區別：對齊是其中一種手段。
>
> **AI安全 vs AI治理**
>
> 安全偏技術防線。
>
> 治理偏組織管理和責任分工。
>
> 最關鍵的區別：一個管系統，一個管制度。

### 記住這句就好

> 讓 AI 能做事，但不要讓它做出不可收拾的事。

### 實際案例

> **客服機器人亂回覆**
>
> 如果客服模型把退款規則說錯，使用者可能拿到不該拿的補償，或被誤導去做錯步驟。安全設計會加上規則檢查和人工覆核。
>
> **工具型代理亂操作**
>
> 一個能幫你下指令的 AI 代理，若沒有安全限制，可能直接刪資料、亂寄信或誤叫 API，所以要先把可用工具和權限收緊。

### 深入了解

> **常見安全做法**
>
> 紅隊演練、對抗測試、輸出過濾、權限限制、人工確認和監控告警，通常會一起用。
>
> **安全不是一次完成**
>
> 模型更新、資料變動、攻擊手法變化，都會讓原本的安全措施失效，所以要持續檢查。

### 情境判斷

> **Q1（直覺題）：** 一個模型在測試資料上很準，但上線後會偶爾亂編答案，這屬於什麼問題？
>
> → AI安全問題。因為它在真實環境中產生了有害或不可靠的行為。
>
> **Q2（判斷題）：** 只要把模型變小，AI 就一定更安全嗎？
>
> → 不一定，這要看情況。模型變小可能降低某些風險，但如果權限、資料或流程沒管好，危險還是在。

### 常見問題

> **Q：AI 安全和資訊安全是一樣的嗎？**
>
> 不一樣。資訊安全主要防資料和系統被入侵，AI 安全還要管模型輸出、行為偏移和工具使用風險。
>
> **Q：AI 安全一定要靠大公司才做得到嗎？**
>
> 不是，小團隊也可以從權限控制、人工覆核和基本紅隊測試開始。
>
> **Q：AI 安全跟對抗性攻擊有什麼關係？**
>
> 對抗性攻擊是風險來源之一，AI 安全要處理的範圍比它更廣。
>
> **Q：AI 安全和產品體驗會衝突嗎？**
>
> 有時會，但好的設計是把風險限制放在高危操作上，而不是把所有功能都鎖死。

### 相關術語

> - **對齊校準**：AI 安全最核心的技術方向之一
> - **AI治理**：安全措施通常要靠治理落地
> - **人工智慧倫理**：安全常和倫理一起討論
> - **紅隊演練**：找出安全漏洞的實戰方法
> - **人工智慧風險評估**：安全工作通常從評估開始

---

來源：https://aiterms.tw/terms/ai-safety
快查頁：https://aiterms.tw/terms/ai-safety
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-ai-safety