多模態學習(Multimodal Learning)是什麼?

多模態學習是一種機器學習方法,旨在從多種不同類型(模態)的資料中學習,例如圖像、文字和音訊,以提升模型效能。|本頁含完整原理、應用場景、iPAS 考試重點與 3 個常見問答。

多模態學習(Multimodal Learning)是什麼? 機器學習深度學習

你有沒有發現,單看文字或單看圖片,有時根本看不完整? 你可以把它想成同時聽老師講、看投影片、再看手寫筆記,三種資訊一起學。 多模態學習關心的是怎麼把不同模態對齊、融合、再一起訓練,讓模型學得更完整。 這也讓它很適合先拿到可用答案,再慢慢把精度往上推。

容易混淆

多模態學習 vs 多模態 AI 多模態學習:訓練方法 多模態 AI:應用能力與整體系統 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

多模態學習 vs 單模態學習 多模態學習:同時用多種資料 單模態學習:只用一種資料來源 最關鍵的區別:先看它是在比什麼,再看它怎麼做。

記住這句就好

多種資料一起學,重點是怎麼對齊。

實際案例

商品分類 照片、標題、規格一起訓練,模型更容易分出同系列商品。

醫療診斷 影像、報告、檢驗數值一起看,模型較能抓到單一模態看不到的線索。

算法與應用

常見做法有早期融合、晚期融合、和中間融合。 模態差異越大,越需要處理缺失模態、時間對齊、和權重分配。 它的價值不只在資料變多,而是資訊互補。

情境判斷

Q1(直覺題): 你要把圖片與文字一起送進模型做分類,這比較像什麼?

多模態學習,因為訓練時就把不同模態一起用。

Q2(判斷題): 如果圖片很完整,但文字描述常缺字,融合時該怎麼想?

要看情況,缺模態可以補值或降權,重點是別把不可靠模態硬當真。

常見問題

多模態學習一定要把資料拼成一串嗎?

不一定,可以在不同階段融合,方法很多。

缺少一種模態時怎麼辦?

可以補值、忽略缺失模態,或訓練可容忍缺失的模型。

它和多任務學習一樣嗎?

不一樣,多任務是多個任務,多模態是多種資料型態。