人工智慧安全 是什麼?
AI Safety — 人工智慧安全 的完整解釋
人工智慧安全旨在確保AI系統在部署後,其行為符合人類意圖,避免產生意外或有害的後果,保障人類福祉。
容易混淆
AI安全 vs AI倫理
安全看會不會造成傷害。
倫理看應不應該這樣做。
最關鍵的區別:安全偏風險,倫理偏價值。
AI安全 vs 對齊校準
對齊校準是讓模型更符合人類意圖。
AI安全是更大的範圍,包含對齊、測試、監控和限制。
最關鍵的區別:對齊是其中一種手段。
AI安全 vs AI治理
安全偏技術防線。
治理偏組織管理和責任分工。
最關鍵的區別:一個管系統,一個管制度。
記住這句就好
讓 AI 能做事,但不要讓它做出不可收拾的事。
實際案例
客服機器人亂回覆
如果客服模型把退款規則說錯,使用者可能拿到不該拿的補償,或被誤導去做錯步驟。安全設計會加上規則檢查和人工覆核。
工具型代理亂操作
一個能幫你下指令的 AI 代理,若沒有安全限制,可能直接刪資料、亂寄信或誤叫 API,所以要先把可用工具和權限收緊。
深入了解
常見安全做法
紅隊演練、對抗測試、輸出過濾、權限限制、人工確認和監控告警,通常會一起用。
安全不是一次完成
模型更新、資料變動、攻擊手法變化,都會讓原本的安全措施失效,所以要持續檢查。
情境判斷
Q1(直覺題): 一個模型在測試資料上很準,但上線後會偶爾亂編答案,這屬於什麼問題?
→ AI安全問題。因為它在真實環境中產生了有害或不可靠的行為。
Q2(判斷題): 只要把模型變小,AI 就一定更安全嗎?
→ 不一定,這要看情況。模型變小可能降低某些風險,但如果權限、資料或流程沒管好,危險還是在。
相關術語
常見問題
AI 安全和資訊安全是一樣的嗎?
不一樣。資訊安全主要防資料和系統被入侵,AI 安全還要管模型輸出、行為偏移和工具使用風險。
AI 安全一定要靠大公司才做得到嗎?
不是,小團隊也可以從權限控制、人工覆核和基本紅隊測試開始。
AI 安全跟對抗性攻擊有什麼關係?
對抗性攻擊是風險來源之一,AI 安全要處理的範圍比它更廣。
AI 安全和產品體驗會衝突嗎?
有時會,但好的設計是把風險限制放在高危操作上,而不是把所有功能都鎖死。