多模態學習是什麼？

不一定，可以在不同階段融合，方法很多。

Multimodal Learning — 多模態學習的完整解釋

多模態學習是一種機器學習方法，旨在從多種不同類型（模態）的資料中學習，例如圖像、文字和音訊，以提升模型效能。

多模態學習 vs 多模態 AI 多模態學習：訓練方法多模態 AI：應用能力與整體系統最關鍵的區別：先看它是在比什麼，再看它怎麼做。

多模態學習 vs 單模態學習 多模態學習：同時用多種資料單模態學習：只用一種資料來源最關鍵的區別：先看它是在比什麼，再看它怎麼做。

多種資料一起學，重點是怎麼對齊。

商品分類 照片、標題、規格一起訓練，模型更容易分出同系列商品。

醫療診斷 影像、報告、檢驗數值一起看，模型較能抓到單一模態看不到的線索。

常見做法有早期融合、晚期融合、和中間融合。模態差異越大，越需要處理缺失模態、時間對齊、和權重分配。它的價值不只在資料變多，而是資訊互補。

Q1（直覺題）：你要把圖片與文字一起送進模型做分類，這比較像什麼？ → 多模態學習，因為訓練時就把不同模態一起用。

Q2（判斷題）：如果圖片很完整，但文字描述常缺字，融合時該怎麼想？ → 要看情況，缺模態可以補值或降權，重點是別把不可靠模態硬當真。

常見問題

不一定，可以在不同階段融合，方法很多。

可以補值、忽略缺失模態，或訓練可容忍缺失的模型。

不一樣，多任務是多個任務，多模態是多種資料型態。