iPAS AI 應用規劃師中級　科目一

多模態模型碰到模態缺失，怎麼辦？

原題 21

在多模態 AI 模型訓練或推論過程中，遇到某一模態資料缺失（例如僅有影像資料但缺少文字說明），下列哪一種策略最有效維持模型效能？

白話

多模態 AI 是指同時接受多種資料來源的模型，例如同時看「圖片」加「文字說明」來做判斷。

但實際應用中，常常只有圖片，沒有文字說明（或反過來）。這叫「模態缺失」。

問你：碰到模態缺失，哪種策略最有效讓模型繼續運作？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

多模態缺失最有效的策略：訓練一個從一開始就「知道自己可能會缺資料」的模型，讓它學會在缺少某個模態時仍能用剩下的資訊做出合理預測，而不是靠事後補救。

02　情境

先感受問題：醫療 AI 只有影像，沒有病歷文字

假設「醫感」公司開發了一個多模態 AI 輔助診斷系統，訓練時同時用：

胸腔 X 光影像（圖像模態）
病患的主訴文字（文字模態，如「持續咳嗽兩週、有痰」）

訓練好後，在大醫院使用沒有問題。但推廣到偏鄉診所後，診所醫師只有 X 光片，沒有在系統上輸入文字主訴。

輸入：X 光影像 ✓　|　文字主訴 ✗（缺失）

這台 AI 怎麼辦？

如果沒有特別設計，模型遇到缺少文字輸入就可能當機、輸出亂碼、或信心大幅下降。但「醫感」不可能因為偏鄉診所沒有文字輸入就拒絕服務患者。

這就是模態缺失問題的現實：訓練環境有多模態，但推論環境不一定有。

03　對照

為什麼幾個看起來合理的解法都不夠好

直覺上有幾個選項，但各有問題：

用零向量填充（選項 A 的方向）：把缺失的文字模態用一個全是 0 的向量代替。問題：「全零」是一個無意義的輸入，模型從未在訓練時見過這種輸入，它不知道「全零 = 缺失」，會把全零當成真實的輸入來解讀，輸出通常很差。
直接捨棄缺失模態的樣本（選項 D 的方向）：只用兩個模態都有的資料。訓練時可行，但推論時碰到只有一個模態怎麼辦？資料已經部署了，客戶就是只有 X 光片，你無法「捨棄」這個患者的需求。
用生成模型補全缺失模態（選項 C 的方向）：用 GAN 根據 X 光影像「生成」一段假的文字主訴，再餵給模型。問題：生成的文字可能有幻覺，把假資訊當輸入反而比沒有輸入更危險，在醫療場景尤其不可接受。
事後套用缺失填補（Post-hoc Imputation）：訓練後再想辦法填補，問題是模型訓練時假設兩個模態都在，現在硬填一個假資料，模型的內部期望和實際輸入不符，效果差。
降維到只用單模態：只用圖像重新訓練一個模型。代價太高，而且在有文字時的性能會下降。

04　解法

訓練「知道自己可能沒有完整資訊」的模型

回到「醫感」的 X 光診斷系統。最根本的解法是：在訓練階段就把「有時候某個模態會缺失」這件事設計進去。

做法很直接：

隨機遮蔽訓練（Random Masking）：在訓練時，隨機把某個批次的文字輸入設為「缺失」，強迫模型學會在沒有文字時只靠圖像做診斷；有時候把圖像設為「缺失」，強迫模型只靠文字做診斷；有時候兩個都有，正常訓練。

批次 1：X 光 ✓ + 文字 ✓　→　正常診斷
批次 2：X 光 ✓ + 文字 ✗（遮蔽）→　只靠影像診斷
批次 3：X 光 ✗（遮蔽）+ 文字 ✓　→　只靠文字診斷
批次 4：X 光 ✓ + 文字 ✓　→　正常診斷（多次出現）

模型被迫在各種缺失情境下完成任務，就像一個醫師被訓練成「就算今天沒有所有資料，也要給出最佳判斷」，而不是「缺資料就拒絕診斷」。

推論時偏鄉診所只給 X 光片，模型見過這種情況，知道怎麼處理，效能下降幅度有限。

這就是選項 B 講的：訓練具備模態缺失感知能力的模型，使其適應缺失狀況。

技術版：模態缺失感知訓練的架構設計

中級考試大概率會考程式碼跟公式，所以這部分你還是要學。但如果現在學起來很痛苦，可以先跳過，等讀完其他題目回頭再來。

本題沒有程式碼或數學公式，技術版重點放在多模態缺失感知架構的完整技術背景。

模態缺失感知訓練的三種主流架構：

1. 隨機遮蔽訓練（Random Masking / Dropout-based Masking）：

訓練時以一定機率（如 30%）隨機將某個模態設為缺失（全零向量或特殊「MISSING」token）。模型需要在所有可能的缺失組合下都能正確預測，被迫學習每個模態的獨立判斷能力，也學習多模態融合時的互補關係。

2. 對比學習對齊（Contrastive Learning Alignment）：

把不同模態的特徵向量拉到同一個語意空間。在這個空間裡，同一個樣本的圖像特徵和文字特徵應該很接近，不同樣本應該很遠。這樣即使缺少某個模態，也能在共同語意空間裡做推理（CLIP 就是這個設計）。

3. 缺失標記（Missing Token）：

在輸入序列中明確加入一個特殊的「缺失標記」（MISSING token），告訴模型「這個位置的資訊不存在」，比全零向量更明確，模型能學到「看到 MISSING 就不要依賴這個模態」。這是 Transformer 架構特有的優勢：attention mask 可以直接讓模型忽略缺失位置。

為什麼零向量填充（選項 A）不如模態感知訓練（選項 B）：

零向量填充在推論時使用，但訓練時模型從未見過全零向量，它不知道全零代表什麼。模態感知訓練則在訓練時就見過缺失情況，兩者的根本差異是：訓練分布和推論分布是否一致（distribution mismatch）。

05　陷阱

為什麼其他選項是錯的

A以零向量或固定向量填充缺失模態輸入

字面在說什麼

把缺失的那個模態輸入用一個全零的向量（或者某個固定的預設向量）代替，讓模型的輸入格式維持完整，不會因為缺少輸入而當機。

為什麼不對

零向量在訓練資料裡從未出現（訓練時兩個模態都有），模型不知道全零代表「缺失」，它會把全零當成一種有意義的真實輸入來解讀，通常輸出品質很差。這是訓練分布和推論分布不一致的問題（distribution mismatch）。比起讓模型天生就會處理缺失，事後填入假資料是更脆弱的修補。

誰會選錯

工程直覺很強的考生，覺得「輸入格式要完整，給個 placeholder 就行」。這個方案技術上可以讓程式不報錯，但模型輸出品質差，是治標不治本。

C利用生成模型（如 GAN 或自迴歸模型）預測並補全缺失模態資料

字面在說什麼

用另一個 AI（GAN 或 GPT 類）根據現有的模態「猜」出缺失模態的內容，再把生成的假資料當成真實輸入餵給主模型。

為什麼不對

這個方法引入了額外的不確定性：生成模型可能生成有幻覺的內容（特別是文字），如果生成的假文字說明描述錯誤，主模型反而會被誤導，比沒有文字輸入更危險。在醫療、金融等高風險場景尤其不可接受。而且這需要額外部署和維護一個生成模型，系統複雜度大幅增加，且問題根源（主模型沒有缺失感知）仍然存在。

誰會選錯

對生成 AI 充滿信心、覺得「缺什麼就讓 AI 補什麼」的考生。生成補全在某些場景（如圖像修復）有效，但在多模態推理場景，假資料比缺失資料危害更大。

D直接捨棄缺少模態的樣本，避免干擾訓練或推論

字面在說什麼

訓練時只用兩個模態都完整的資料，遇到缺失的樣本就跳過；推論時如果遇到缺失就拒絕處理。

為什麼不對

訓練時捨棄缺失樣本是可行的，但會損失資料量。更大的問題在推論時：真實世界的使用者常常只有部分模態（偏鄉診所只有 X 光片），如果模型遇到缺失就拒絕服務，那這個多模態系統的實用性大打折扣。題目問的是「最有效維持模型效能」，捨棄樣本不是維持效能，是迴避問題。

多模態學習（Multimodal Learning）同時整合圖像、文字、音訊等多種資料的 AI 學習範式，是本題模態缺失問題的直接背景。
對比語言圖像預訓練（CLIP）OpenAI 將圖文對齊至同一語意空間，天然具備單模態推論能力，是模態缺失感知設計的實作典範。
對比學習（Contrastive Learning）將不同模態的表示拉近、不同樣本推遠，使缺少某一模態時仍能在共同空間做推理。
穩健性（Robustness）模型在輸入受干擾或分佈偏移（如模態缺失）時維持正確預測的能力，是評估缺失感知訓練效果的核心指標。
資料擴增術（Data Augmentation）隨機遮蔽某一模態本質上是一種資料擴增，讓模型在訓練時接觸到各種缺失組合，提升泛化能力。