機制性可解釋性 是什麼?
Mechanistic Interpretability — 機制性可解釋性 的完整解釋
機制性可解釋性旨在理解AI模型內部運作的具體機制,如同理解程式碼般,而非僅僅觀察輸入輸出關係。
容易混淆
機制性可解釋性 vs 事後解釋
機制性可解釋性:直接研究模型內部機制和電路。 事後解釋:在模型外面做說明,例如特徵重要度。 最關鍵的區別:前者在拆內部結構,後者在做外部說明。
機制性可解釋性 vs 黑箱模型
機制性可解釋性:想把黑箱打開,找出可追蹤的因果路徑。 黑箱模型:只看輸入輸出,不追內部原因。 最關鍵的區別:一個要看懂裡面,一個接受看不懂。
記住這句就好
不是只問答對沒,而是追它怎麼答對。
實際案例
研究注意力頭的功能
研究者發現某些注意力頭專門處理括號配對或語法關係,這不是看分數而已,而是在找模型內部的分工。
找出錯誤觸發電路
如果模型在遇到某種字型就誤判,透過機制分析可以追到是哪一層、哪一組神經元被觸發。
算法與應用
常見方法包括激活分析、探針、消融實驗和電路分析。 它關心的是因果機制,不只是相關性,所以常要反覆驗證某個組件拿掉後,輸出是否真的改變。 在大型語言模型上,這是理解能力、幻覺和安全風險的重要工具。
情境判斷
Q1(情境題): 你只要知道模型有沒有錯,不在乎內部怎麼運作,還需要做機制性可解釋性嗎?
→ 不一定。若只是做一般報表,事後解釋可能夠用;但若要找 bug、理解風險或做安全稽核,還是需要往內部看。
Q2(情境題): 如果一個模型在不同資料集上都很準,就代表它的內部機制很好理解嗎?
→ 不代表。高準確率不等於可解釋性,很多黑箱模型只是表現好,內部仍然很難拆。
相關術語
常見問題
機制性可解釋性一定要看神經網路嗎?
主要是,但不只限於神經網路。只要模型內部有可分析的中間表徵,就有機會做。
它和可視化是一樣的嗎?
不一樣。可視化只是工具之一,機制性可解釋性更重視因果和內部結構。
為什麼大模型更需要這個領域?
因為模型越大,單靠輸出越難猜到它是不是學到偏見、捷徑或危險行為。