你有沒有看過一張圖,還想直接問「這裡面是什麼」? 你可以把視覺問答想成「看著圖片回答文字問題」 模型不只要看懂圖,還要把問題和圖像線索對起來 這比單純圖像分類更進一步,因為答案常需要推理
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
視覺問答 vs 圖像分類 視覺問答要回答問題 圖像分類只給一個類別標籤 最關鍵的區別:有沒有問題要回答
視覺問答 vs 圖像描述 視覺問答是針對提問作答 圖像描述是整體描述圖片 最關鍵的區別:定向回答和整體敘述
視覺問答 vs 視覺語言模型 視覺問答是任務 視覺語言模型是常見底層模型 最關鍵的區別:任務和模型
記住這句就好
先看圖,再抓問題關鍵字,最後把兩邊接起來回答。
實際案例
購物客服 使用者上傳商品照片再問尺寸或顏色,系統可直接回覆,減少人工處理
教材理解 學生看到圖表後問「哪一段最高」,模型要從圖像讀出對應位置再答題
算法與應用
| 圖像特徵 | 先看圖片內容 | 是回答的基礎 | | 問題理解 | 抓出問題在問什麼 | 關鍵詞很重要 | | 注意力對齊 | 把問題和圖像區域連起來 | 常是性能關鍵 | | 答案生成 | 輸出簡短或句子型答案 | 常比分類更彈性 |
情境判斷
Q1(直覺題): 你問模型「這張圖裡有幾個人」,這屬於 VQA 嗎?
Q2(判斷題): 如果題目只要模型寫出圖片內容摘要,還算同一類嗎?
常見問題
視覺問答需要真的理解圖嗎?
需要,至少要能把問題對應到圖中的區域或物件。
它和聊天機器人有何不同?
聊天機器人主要處理文字,VQA 還要加上影像。
為什麼答案有時候很短?
因為很多 VQA 資料集本來就以短答案為主。