多模態模型碰到模態缺失,怎麼辦?
在多模態 AI 模型訓練或推論過程中,遇到某一模態資料缺失(例如僅有影像資料但缺少文字說明),下列哪一種策略最有效維持模型效能?
多模態 AI 是指同時接受多種資料來源的模型,例如同時看「圖片」加「文字說明」來做判斷。
但實際應用中,常常只有圖片,沒有文字說明(或反過來)。這叫「模態缺失」。
問你:碰到模態缺失,哪種策略最有效讓模型繼續運作?
一句話總結
多模態缺失最有效的策略:訓練一個從一開始就「知道自己可能會缺資料」的模型,讓它學會在缺少某個模態時仍能用剩下的資訊做出合理預測,而不是靠事後補救。
先感受問題:醫療 AI 只有影像,沒有病歷文字
假設「醫感」公司開發了一個多模態 AI 輔助診斷系統,訓練時同時用:
- 胸腔 X 光影像(圖像模態)
- 病患的主訴文字(文字模態,如「持續咳嗽兩週、有痰」)
訓練好後,在大醫院使用沒有問題。但推廣到偏鄉診所後,診所醫師只有 X 光片,沒有在系統上輸入文字主訴。
這台 AI 怎麼辦?
如果沒有特別設計,模型遇到缺少文字輸入就可能當機、輸出亂碼、或信心大幅下降。但「醫感」不可能因為偏鄉診所沒有文字輸入就拒絕服務患者。
這就是模態缺失問題的現實:訓練環境有多模態,但推論環境不一定有。
為什麼幾個看起來合理的解法都不夠好
直覺上有幾個選項,但各有問題:
- 用零向量填充(選項 A 的方向):把缺失的文字模態用一個全是 0 的向量代替。問題:「全零」是一個無意義的輸入,模型從未在訓練時見過這種輸入,它不知道「全零 = 缺失」,會把全零當成真實的輸入來解讀,輸出通常很差。
- 直接捨棄缺失模態的樣本(選項 D 的方向):只用兩個模態都有的資料。訓練時可行,但推論時碰到只有一個模態怎麼辦?資料已經部署了,客戶就是只有 X 光片,你無法「捨棄」這個患者的需求。
- 用生成模型補全缺失模態(選項 C 的方向):用 GAN 根據 X 光影像「生成」一段假的文字主訴,再餵給模型。問題:生成的文字可能有幻覺,把假資訊當輸入反而比沒有輸入更危險,在醫療場景尤其不可接受。
- 事後套用缺失填補(Post-hoc Imputation):訓練後再想辦法填補,問題是模型訓練時假設兩個模態都在,現在硬填一個假資料,模型的內部期望和實際輸入不符,效果差。
- 降維到只用單模態:只用圖像重新訓練一個模型。代價太高,而且在有文字時的性能會下降。
訓練「知道自己可能沒有完整資訊」的模型
回到「醫感」的 X 光診斷系統。最根本的解法是:在訓練階段就把「有時候某個模態會缺失」這件事設計進去。
做法很直接:
隨機遮蔽訓練(Random Masking):在訓練時,隨機把某個批次的文字輸入設為「缺失」,強迫模型學會在沒有文字時只靠圖像做診斷;有時候把圖像設為「缺失」,強迫模型只靠文字做診斷;有時候兩個都有,正常訓練。
批次 2:X 光 ✓ + 文字 ✗(遮蔽)→ 只靠影像診斷
批次 3:X 光 ✗(遮蔽)+ 文字 ✓ → 只靠文字診斷
批次 4:X 光 ✓ + 文字 ✓ → 正常診斷(多次出現)
模型被迫在各種缺失情境下完成任務,就像一個醫師被訓練成「就算今天沒有所有資料,也要給出最佳判斷」,而不是「缺資料就拒絕診斷」。
推論時偏鄉診所只給 X 光片,模型見過這種情況,知道怎麼處理,效能下降幅度有限。
這就是選項 B 講的:訓練具備模態缺失感知能力的模型,使其適應缺失狀況。
技術版:模態缺失感知訓練的架構設計
中級考試大概率會考程式碼跟公式,所以這部分你還是要學。但如果現在學起來很痛苦,可以先跳過,等讀完其他題目回頭再來。
本題沒有程式碼或數學公式,技術版重點放在多模態缺失感知架構的完整技術背景。
模態缺失感知訓練的三種主流架構:
1. 隨機遮蔽訓練(Random Masking / Dropout-based Masking):
訓練時以一定機率(如 30%)隨機將某個模態設為缺失(全零向量或特殊「MISSING」token)。模型需要在所有可能的缺失組合下都能正確預測,被迫學習每個模態的獨立判斷能力,也學習多模態融合時的互補關係。
2. 對比學習對齊(Contrastive Learning Alignment):
把不同模態的特徵向量拉到同一個語意空間。在這個空間裡,同一個樣本的圖像特徵和文字特徵應該很接近,不同樣本應該很遠。這樣即使缺少某個模態,也能在共同語意空間裡做推理(CLIP 就是這個設計)。
3. 缺失標記(Missing Token):
在輸入序列中明確加入一個特殊的「缺失標記」(MISSING token),告訴模型「這個位置的資訊不存在」,比全零向量更明確,模型能學到「看到 MISSING 就不要依賴這個模態」。這是 Transformer 架構特有的優勢:attention mask 可以直接讓模型忽略缺失位置。
為什麼零向量填充(選項 A)不如模態感知訓練(選項 B):
零向量填充在推論時使用,但訓練時模型從未見過全零向量,它不知道全零代表什麼。模態感知訓練則在訓練時就見過缺失情況,兩者的根本差異是:訓練分布和推論分布是否一致(distribution mismatch)。
為什麼其他選項是錯的
A以零向量或固定向量填充缺失模態輸入
把缺失的那個模態輸入用一個全零的向量(或者某個固定的預設向量)代替,讓模型的輸入格式維持完整,不會因為缺少輸入而當機。
零向量在訓練資料裡從未出現(訓練時兩個模態都有),模型不知道全零代表「缺失」,它會把全零當成一種有意義的真實輸入來解讀,通常輸出品質很差。這是訓練分布和推論分布不一致的問題(distribution mismatch)。比起讓模型天生就會處理缺失,事後填入假資料是更脆弱的修補。
工程直覺很強的考生,覺得「輸入格式要完整,給個 placeholder 就行」。這個方案技術上可以讓程式不報錯,但模型輸出品質差,是治標不治本。
C利用生成模型(如 GAN 或自迴歸模型)預測並補全缺失模態資料
用另一個 AI(GAN 或 GPT 類)根據現有的模態「猜」出缺失模態的內容,再把生成的假資料當成真實輸入餵給主模型。
這個方法引入了額外的不確定性:生成模型可能生成有幻覺的內容(特別是文字),如果生成的假文字說明描述錯誤,主模型反而會被誤導,比沒有文字輸入更危險。在醫療、金融等高風險場景尤其不可接受。而且這需要額外部署和維護一個生成模型,系統複雜度大幅增加,且問題根源(主模型沒有缺失感知)仍然存在。
對生成 AI 充滿信心、覺得「缺什麼就讓 AI 補什麼」的考生。生成補全在某些場景(如圖像修復)有效,但在多模態推理場景,假資料比缺失資料危害更大。
D直接捨棄缺少模態的樣本,避免干擾訓練或推論
訓練時只用兩個模態都完整的資料,遇到缺失的樣本就跳過;推論時如果遇到缺失就拒絕處理。
訓練時捨棄缺失樣本是可行的,但會損失資料量。更大的問題在推論時:真實世界的使用者常常只有部分模態(偏鄉診所只有 X 光片),如果模型遇到缺失就拒絕服務,那這個多模態系統的實用性大打折扣。題目問的是「最有效維持模型效能」,捨棄樣本不是維持效能,是迴避問題。
謹慎的工程師,覺得「垃圾進垃圾出,不如不進」。這個想法在資料品質管控上是對的,但當「缺失」是現實世界必然存在的情況而非資料錯誤,捨棄就等於放棄了一大塊真實應用場景。
同個考點下次怎麼變形
如果缺失的模態是最關鍵的那個,模態缺失感知訓練還管用嗎?
假設文字說明是最重要的輸入,只剩圖像,模型能表現多好?
效能一定下降,但幅度取決於兩個模態的資訊互補程度。如果文字說明提供了圖像完全看不到的資訊(例如患者年齡、症狀持續時間),那缺少文字會讓準確率明顯下降。設計良好的缺失感知模型會知道「我現在只有圖像,信心度較低」,可以輸出更寬的信心區間(uncertainty calibration),而不是給出一個假裝很確定的錯誤答案。
什麼情況下捨棄缺失樣本(選項 D)反而是合理的?
捨棄是迴避問題,但有沒有時候捨棄才對?
有兩種情況合理:1. 缺失比例很低(不到 1%),捨棄不影響訓練集的代表性,而處理缺失的複雜度不值得。2. 缺失資料缺的是根本性資訊,補全或感知訓練都沒法彌補,例如做視覺-語音配對時,語音根本沒有錄製,不是「缺失」而是「根本不存在」。這時捨棄比強行訓練一個假設「語音只是剛好缺了」的模型更誠實。
CLIP 模型如何天然地應對模態缺失?
CLIP 同時處理圖像和文字,它遇到只有圖像的情況怎麼辦?
CLIP 的設計讓它天然對模態缺失有一定抵抗力。CLIP 把圖像和文字分別編碼成同一個語意空間的向量,用對比學習讓對應的圖文向量靠近。這個設計下,圖像編碼器和文字編碼器相對獨立,只給圖像時直接用圖像編碼器輸出向量,只給文字時用文字編碼器,不需要特別的缺失處理。CLIP 的局限是融合兩個模態做細粒度推理時,單模態效能確實較弱。
結構化資料(如電商用戶表格)的「欄位缺失」問題和模態缺失有什麼不同?
電商用戶可能缺少某些欄位(如年齡沒填),這和多模態缺失是同一類問題嗎?
邏輯相同,但規模和解法有些差異。表格欄位缺失通常用插補(Imputation):均值填充、KNN 插補、或訓練一個插補模型。多模態缺失的「模態」通常是高維的(圖像、音訊),插補代價高,所以更常用感知訓練。但核心邏輯一致:讓模型在訓練時見過缺失情況(masked features),比事後插補更根本。XGBoost 等樹型模型本來就能處理 NaN 值,相當於內建了「欄位缺失感知」。
怎麼評估一個模型的「模態缺失健壯性」(Robustness to Missing Modality)?
看效能掉多少就知道了?
有更系統的評估方式。比較三種情況:全模態準確率(100% baseline)、缺失一個模態的準確率(Degradation Rate,效能降低幅度)、以及「缺失比例 vs 效能」曲線(隨著缺失比例從 0% 到 100%,效能如何衰退)。理想的感知訓練模型應該在缺失比例低時效能接近全模態,在缺失比例高時仍然優於零向量填充方案。信心校準(Calibration)也是重要指標:缺失時模型是否知道自己不確定。
想再往下看,這 5 個
- 多模態學習(Multimodal Learning)同時整合圖像、文字、音訊等多種資料的 AI 學習範式,是本題模態缺失問題的直接背景。
- 對比語言圖像預訓練(CLIP)OpenAI 將圖文對齊至同一語意空間,天然具備單模態推論能力,是模態缺失感知設計的實作典範。
- 對比學習(Contrastive Learning)將不同模態的表示拉近、不同樣本推遠,使缺少某一模態時仍能在共同空間做推理。
- 穩健性(Robustness)模型在輸入受干擾或分佈偏移(如模態缺失)時維持正確預測的能力,是評估缺失感知訓練效果的核心指標。
- 資料擴增術(Data Augmentation)隨機遮蔽某一模態本質上是一種資料擴增,讓模型在訓練時接觸到各種缺失組合,提升泛化能力。