---
title: "多模態學習（Multimodal Learning）"
slug: multimodal-learning
language: zh-TW
source: https://aiterms.tw/terms/multimodal-learning
updated_at: 2026-04-29
tags: [機器學習, 深度學習, 電腦視覺, 自然語言處理, 多模態AI, 模型訓練, 模型評估]
ipas_term: false
---

# 多模態學習（Multimodal Learning）

> **你有沒有發現，單看文字或單看圖片，有時根本看不完整？**
> 你可以把它想成同時聽老師講、看投影片、再看手寫筆記，三種資訊一起學。
> 多模態學習關心的是怎麼把不同模態對齊、融合、再一起訓練，讓模型學得更完整。 這也讓它很適合先拿到可用答案，再慢慢把精度往上推。
>
### 容易混淆

> **多模態學習 vs 多模態 AI**
> 多模態學習：訓練方法
> 多模態 AI：應用能力與整體系統
> 最關鍵的區別：先看它是在比什麼，再看它怎麼做。
>
> **多模態學習 vs 單模態學習**
> 多模態學習：同時用多種資料
> 單模態學習：只用一種資料來源
> 最關鍵的區別：先看它是在比什麼，再看它怎麼做。
>
### 記住這句就好

> 多種資料一起學，重點是怎麼對齊。
>
### 實際案例

> **商品分類**
> 照片、標題、規格一起訓練，模型更容易分出同系列商品。
>
> **醫療診斷**
> 影像、報告、檢驗數值一起看，模型較能抓到單一模態看不到的線索。
>
### 算法與應用

> 常見做法有早期融合、晚期融合、和中間融合。
> 模態差異越大，越需要處理缺失模態、時間對齊、和權重分配。
> 它的價值不只在資料變多，而是資訊互補。
>
### 情境判斷

> **Q1（直覺題）：你要把圖片與文字一起送進模型做分類，這比較像什麼？**
> → 多模態學習，因為訓練時就把不同模態一起用。
>
> **Q2（判斷題）：如果圖片很完整，但文字描述常缺字，融合時該怎麼想？**
> → 要看情況，缺模態可以補值或降權，重點是別把不可靠模態硬當真。
>
### 常見問題

> **Q：多模態學習一定要把資料拼成一串嗎？**
> 不一定，可以在不同階段融合，方法很多。
>
> **Q：缺少一種模態時怎麼辦？**
> 可以補值、忽略缺失模態，或訓練可容忍缺失的模型。
>
> **Q：它和多任務學習一樣嗎？**
> 不一樣，多任務是多個任務，多模態是多種資料型態。
>
### 相關術語

> - **電腦視覺**：常是圖像模態的入口。
> - **語音辨識**：聲音模態常靠它轉成文字。
> - **自然語言處理**：文字模態的標準工具。
> - **視覺語言模型**：多模態學習的代表性模型。

---

來源：https://aiterms.tw/terms/multimodal-learning
快查頁：https://aiterms.tw/terms/multimodal-learning
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-multimodal-learning