多模態學習 是什麼?

Multimodal Learning — 多模態學習 的完整解釋

多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。

容易混淆

多模態學習 vs 多模態 AI 多模態學習:訓練方法 多模態 AI:應用能力與整體系統 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

多模態學習 vs 單模態學習 多模態學習:同時用多種資料 單模態學習:只用一種資料來源 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

記住這句就好

多種資料一起學,重點是怎麼對齊。

實際案例

商品分類 照片、標題、規格一起訓練,模型更容易分出同系列商品。

醫療診斷 影像、報告、檢驗數值一起看,模型較能抓到單一模態看不到的線索。

算法與應用

常見做法有早期融合、晚期融合、和中間融合。 模態差異越大,越需要處理缺失模態、時間對齊、和權重分配。 它的價值不只在資料變多,而是資訊互補。

情境判斷

Q1(直覺題):你要把圖片與文字一起送進模型做分類,這比較像什麼? → 多模態學習,因為訓練時就把不同模態一起用。

Q2(判斷題):如果圖片很完整,但文字描述常缺字,融合時該怎麼想? → 要看情況,缺模態可以補值或降權,重點是別把不可靠模態硬當真。

相關術語

常見問題

多模態學習一定要把資料拼成一串嗎?

不一定,可以在不同階段融合,方法很多。

缺少一種模態時怎麼辦?

可以補值、忽略缺失模態,或訓練可容忍缺失的模型。

它和多任務學習一樣嗎?

不一樣,多任務是多個任務,多模態是多種資料型態。