你有沒有發現,單看文字或單看圖片,有時根本看不完整? 你可以把它想成同時聽老師講、看投影片、再看手寫筆記,三種資訊一起學。 多模態學習關心的是怎麼把不同模態對齊、融合、再一起訓練,讓模型學得更完整。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。
容易混淆
多模態學習 vs 多模態 AI 多模態學習:訓練方法 多模態 AI:應用能力與整體系統 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
多模態學習 vs 單模態學習 多模態學習:同時用多種資料 單模態學習:只用一種資料來源 最關鍵的區別:先看它是在比什麼,再看它怎麼做。
記住這句就好
多種資料一起學,重點是怎麼對齊。
實際案例
商品分類 照片、標題、規格一起訓練,模型更容易分出同系列商品。
醫療診斷 影像、報告、檢驗數值一起看,模型較能抓到單一模態看不到的線索。
算法與應用
常見做法有早期融合、晚期融合、和中間融合。 模態差異越大,越需要處理缺失模態、時間對齊、和權重分配。 它的價值不只在資料變多,而是資訊互補。
情境判斷
Q1(直覺題): 你要把圖片與文字一起送進模型做分類,這比較像什麼?
多模態學習,因為訓練時就把不同模態一起用。
Q2(判斷題): 如果圖片很完整,但文字描述常缺字,融合時該怎麼想?
要看情況,缺模態可以補值或降權,重點是別把不可靠模態硬當真。
常見問題
多模態學習一定要把資料拼成一串嗎?
不一定,可以在不同階段融合,方法很多。
缺少一種模態時怎麼辦?
可以補值、忽略缺失模態,或訓練可容忍缺失的模型。
它和多任務學習一樣嗎?
不一樣,多任務是多個任務,多模態是多種資料型態。