---
title: "視覺問答（Visual Question Answering）"
slug: visual-question-answering
language: zh-TW
source: https://aiterms.tw/terms/visual-question-answering
updated_at: 2026-04-29
tags: [機器學習, 深度學習, 電腦視覺, 自然語言處理, AI應用, 模型訓練, 模型評估]
ipas_term: false
---

# 視覺問答（Visual Question Answering）

> **你有沒有看過一張圖，還想直接問「這裡面是什麼」？**
> 你可以把視覺問答想成「看著圖片回答文字問題」
> 模型不只要看懂圖，還要把問題和圖像線索對起來
> 這比單純圖像分類更進一步，因為答案常需要推理
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **視覺問答 vs 圖像分類**
> 視覺問答要回答問題
> 圖像分類只給一個類別標籤
> 最關鍵的區別：有沒有問題要回答
>
> **視覺問答 vs 圖像描述**
> 視覺問答是針對提問作答
> 圖像描述是整體描述圖片
> 最關鍵的區別：定向回答和整體敘述
>
> **視覺問答 vs 視覺語言模型**
> 視覺問答是任務
> 視覺語言模型是常見底層模型
> 最關鍵的區別：任務和模型
>

### 記住這句就好
> 先看圖，再抓問題關鍵字，最後把兩邊接起來回答。

### 實際案例
> **購物客服**
> 使用者上傳商品照片再問尺寸或顏色，系統可直接回覆，減少人工處理
>
> **教材理解**
> 學生看到圖表後問「哪一段最高」，模型要從圖像讀出對應位置再答題
>

### 算法與應用
> | 圖像特徵 | 先看圖片內容 | 是回答的基礎 |
> | 問題理解 | 抓出問題在問什麼 | 關鍵詞很重要 |
> | 注意力對齊 | 把問題和圖像區域連起來 | 常是性能關鍵 |
> | 答案生成 | 輸出簡短或句子型答案 | 常比分類更彈性 |

### 情境判斷
> **Q1（直覺題）：你問模型「這張圖裡有幾個人」，這屬於 VQA 嗎？**
> → 是，因為它要根據圖片回答文字問題。
>
> **Q2（判斷題）：如果題目只要模型寫出圖片內容摘要，還算同一類嗎？**
> → 比較接近圖像描述，不完全是 VQA。
>
### 常見問題
> **Q：視覺問答需要真的理解圖嗎？**
> 需要，至少要能把問題對應到圖中的區域或物件。
>
> **Q：它和聊天機器人有何不同？**
> 聊天機器人主要處理文字，VQA 還要加上影像。
>
> **Q：為什麼答案有時候很短？**
> 因為很多 VQA 資料集本來就以短答案為主。
>

### 相關術語
> - **視覺語言模型**：VQA 常靠它來做底層理解
> - **電腦視覺**：先懂影像，才能回答影像問題
> - **問答系統**：VQA 可視為問答系統的多模態版本
> - **注意力機制**：常用來對齊問題和圖像區域

---

來源：https://aiterms.tw/terms/visual-question-answering
快查頁：https://aiterms.tw/terms/visual-question-answering
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-visual-question-answering