機制性可解釋性是什麼？

Mechanistic Interpretability — 機制性可解釋性的完整解釋

機制性可解釋性旨在理解AI模型內部運作的具體機制，如同理解程式碼般，而非僅僅觀察輸入輸出關係。

機制性可解釋性 vs 事後解釋

機制性可解釋性：直接研究模型內部機制和電路。事後解釋：在模型外面做說明，例如特徵重要度。最關鍵的區別：前者在拆內部結構，後者在做外部說明。

機制性可解釋性 vs 黑箱模型

機制性可解釋性：想把黑箱打開，找出可追蹤的因果路徑。黑箱模型：只看輸入輸出，不追內部原因。最關鍵的區別：一個要看懂裡面，一個接受看不懂。

不是只問答對沒，而是追它怎麼答對。

研究注意力頭的功能

研究者發現某些注意力頭專門處理括號配對或語法關係，這不是看分數而已，而是在找模型內部的分工。

找出錯誤觸發電路

如果模型在遇到某種字型就誤判，透過機制分析可以追到是哪一層、哪一組神經元被觸發。

常見方法包括激活分析、探針、消融實驗和電路分析。它關心的是因果機制，不只是相關性，所以常要反覆驗證某個組件拿掉後，輸出是否真的改變。在大型語言模型上，這是理解能力、幻覺和安全風險的重要工具。

Q1（情境題）： 你只要知道模型有沒有錯，不在乎內部怎麼運作，還需要做機制性可解釋性嗎？

→ 不一定。若只是做一般報表，事後解釋可能夠用；但若要找 bug、理解風險或做安全稽核，還是需要往內部看。

Q2（情境題）： 如果一個模型在不同資料集上都很準，就代表它的內部機制很好理解嗎？

→ 不代表。高準確率不等於可解釋性，很多黑箱模型只是表現好，內部仍然很難拆。

常見問題

主要是，但不只限於神經網路。只要模型內部有可分析的中間表徵，就有機會做。

不一樣。可視化只是工具之一，機制性可解釋性更重視因果和內部結構。

因為模型越大，單靠輸出越難猜到它是不是學到偏見、捷徑或危險行為。