同一份資料,不同標註者卻標出不一樣結果,問題到底是資料難,還是規則不清楚?
你可以把它想成看幾位老師批改同一份考卷,分數差很多就代表標準不夠一致。
標註者一致性衡量多位標註者在相同資料上標註結果的相似程度。高一致性代表標註品質良好,反之則可能需要重新評估標註規範。
容易混淆
模型準確率 一致性在看人標得像不像,不是在看模型答得準不準。
標籤雜訊 標籤雜訊是標錯的結果,一致性低是先看大家標得有沒有共識,兩者常一起出現但不一樣。
記住這句就好
人和人先要看得一樣,資料才有機會乾淨。
實際案例
醫療影像標註 兩位標註者對同一張 X 光的病灶框選差很多,就代表規範太模糊或病灶本來就難定義。
內容審查 若一段文字到底算不算違規,標註者常常分歧,後面就要靠仲裁或重寫規則。
算法與應用
常見指標有 Cohen's Kappa 和 Fleiss' Kappa。前者多用在兩位標註者,後者適合多位標註者。當一致性偏低時,先修標註指南,再看要不要做仲裁,而不是直接怪模型。
情境判斷
Q1(直覺題): 如果你現在遇到一個 醫療影像標註 的場景,這個概念會是第一個想到的工具嗎? → 看情況,但如果任務目標和這個概念的用途一致,就很可能是。核心還是先確認你要解決的是分類、分群、壓縮、檢索,還是最佳化。
Q2(判斷題): 如果你把它和 標籤雜訊 一起用,結果反而變不穩,通常該怎麼想? → 看情況。先檢查資料分布、特徵定義和模型假設是否相容,很多時候不是概念本身有問題,而是使用條件不對,像距離尺度沒對齊、標註規則不一致,或輸入格式不合。
常見問題
標註者一致性 最容易跟 模型準確率 混淆嗎?
一致性在看人標得像不像,不是在看模型答得準不準。
什麼情況會用到 標註者一致性?
你可以把它想成看幾位老師批改同一份考卷,分數差很多就代表標準不夠一致。 實務上只要你要處理和這個概念相符的任務,就會用到它。
初學者最常錯在哪裡?
標籤雜訊是標錯的結果,一致性低是先看大家標得有沒有共識,兩者常一起出現但不一樣。