人工智慧安全是什麼？

AI Safety — 人工智慧安全的完整解釋

人工智慧安全旨在確保AI系統在部署後，其行為符合人類意圖，避免產生意外或有害的後果，保障人類福祉。

容易混淆

AI安全 vs AI倫理

安全看會不會造成傷害。

倫理看應不應該這樣做。

最關鍵的區別：安全偏風險，倫理偏價值。

AI安全 vs 對齊校準

對齊校準是讓模型更符合人類意圖。

AI安全是更大的範圍，包含對齊、測試、監控和限制。

最關鍵的區別：對齊是其中一種手段。

AI安全 vs AI治理

安全偏技術防線。

治理偏組織管理和責任分工。

最關鍵的區別：一個管系統，一個管制度。

記住這句就好

讓 AI 能做事，但不要讓它做出不可收拾的事。

實際案例

客服機器人亂回覆

如果客服模型把退款規則說錯，使用者可能拿到不該拿的補償，或被誤導去做錯步驟。安全設計會加上規則檢查和人工覆核。

工具型代理亂操作

一個能幫你下指令的 AI 代理，若沒有安全限制，可能直接刪資料、亂寄信或誤叫 API，所以要先把可用工具和權限收緊。

深入了解

常見安全做法

紅隊演練、對抗測試、輸出過濾、權限限制、人工確認和監控告警，通常會一起用。

安全不是一次完成

模型更新、資料變動、攻擊手法變化，都會讓原本的安全措施失效，所以要持續檢查。

情境判斷

Q1（直覺題）： 一個模型在測試資料上很準，但上線後會偶爾亂編答案，這屬於什麼問題？

→ AI安全問題。因為它在真實環境中產生了有害或不可靠的行為。

Q2（判斷題）： 只要把模型變小，AI 就一定更安全嗎？

→ 不一定，這要看情況。模型變小可能降低某些風險，但如果權限、資料或流程沒管好，危險還是在。

常見問題

AI 安全和資訊安全是一樣的嗎？

不一樣。資訊安全主要防資料和系統被入侵，AI 安全還要管模型輸出、行為偏移和工具使用風險。

AI 安全一定要靠大公司才做得到嗎？

不是，小團隊也可以從權限控制、人工覆核和基本紅隊測試開始。

AI 安全跟對抗性攻擊有什麼關係？

對抗性攻擊是風險來源之一，AI 安全要處理的範圍比它更廣。

AI 安全和產品體驗會衝突嗎？

有時會，但好的設計是把風險限制放在高危操作上，而不是把所有功能都鎖死。

← 回到人工智慧安全快查頁

人工智慧安全是什麼？

容易混淆

記住這句就好

實際案例

深入了解

情境判斷

相關術語

相關術語

常見問題

AI 安全和資訊安全是一樣的嗎？

AI 安全一定要靠大公司才做得到嗎？

AI 安全跟對抗性攻擊有什麼關係？

AI 安全和產品體驗會衝突嗎？

人工智慧安全 是什麼？

容易混淆

記住這句就好

實際案例

深入了解

情境判斷

相關術語

相關術語

常見問題

AI 安全和資訊安全是一樣的嗎？

AI 安全一定要靠大公司才做得到嗎？

AI 安全跟對抗性攻擊有什麼關係？

AI 安全和產品體驗會衝突嗎？

人工智慧安全是什麼？