ML（多模態學習）是什麼？完整定義與解說

不一定，可以在不同階段融合，方法很多。

機器學習深度學習

你有沒有發現，單看文字或單看圖片，有時根本看不完整？ 你可以把它想成同時聽老師講、看投影片、再看手寫筆記，三種資訊一起學。多模態學習關心的是怎麼把不同模態對齊、融合、再一起訓練，讓模型學得更完整。這也讓它很適合先拿到可用答案，再慢慢把精度往上推。

容易混淆

多模態學習 vs 多模態 AI 多模態學習：訓練方法多模態 AI：應用能力與整體系統最關鍵的區別：先看它是在比什麼，再看它怎麼做。

多模態學習 vs 單模態學習 多模態學習：同時用多種資料單模態學習：只用一種資料來源最關鍵的區別：先看它是在比什麼，再看它怎麼做。

多種資料一起學，重點是怎麼對齊。

商品分類 照片、標題、規格一起訓練，模型更容易分出同系列商品。

醫療診斷 影像、報告、檢驗數值一起看，模型較能抓到單一模態看不到的線索。

常見做法有早期融合、晚期融合、和中間融合。模態差異越大，越需要處理缺失模態、時間對齊、和權重分配。它的價值不只在資料變多，而是資訊互補。

Q1（直覺題）： 你要把圖片與文字一起送進模型做分類，這比較像什麼？

多模態學習，因為訓練時就把不同模態一起用。

Q2（判斷題）： 如果圖片很完整，但文字描述常缺字，融合時該怎麼想？

要看情況，缺模態可以補值或降權，重點是別把不可靠模態硬當真。

多模態學習一定要把資料拼成一串嗎？

不一定，可以在不同階段融合，方法很多。

缺少一種模態時怎麼辦？

可以補值、忽略缺失模態，或訓練可容忍缺失的模型。

它和多任務學習一樣嗎？

不一樣，多任務是多個任務，多模態是多種資料型態。