視覺語言模型 是什麼?
Vision-Language Model — 視覺語言模型 的完整解釋
視覺語言模型結合電腦視覺與自然語言處理,使機器能理解並生成圖像與文字之間的關聯,應用廣泛,例如圖像描述生成和視覺問答。
容易混淆
視覺語言模型 vs 圖像模型 圖像模型只看圖 視覺語言模型同時看圖和字 最關鍵的區別:有沒有跨模態
視覺語言模型 vs 語言模型 語言模型主要看文字 視覺語言模型也看圖像 最關鍵的區別:輸入模態不一樣
視覺語言模型 vs 多模態學習 視覺語言模型是具體模型 多模態學習是更大的研究方向 最關鍵的區別:模型和研究範圍
記住這句就好
看圖和看字要對齊,模型才知道它們在說同一件事。
實際案例
商品搜尋 你上傳一張鞋子照片,模型能找出相似款,因為它同時理解圖像特徵和文字描述
圖片問答 你問「這張桌上有幾個杯子」,模型先看圖再回答,這比純文字模型更適合
算法與應用
| 特徵對齊 | 讓圖像和文字進同一空間 | 這是核心 | | 圖像描述 | 看圖後生成文字 | 常見應用 | | 視覺問答 | 根據圖片回答問題 | 需要跨模態推理 | | 跨模態搜尋 | 用文字找圖、用圖找文字 | 很實用 |
情境判斷
Q1(直覺題):你要讓系統看圖回答問題,這類模型適合嗎? → 適合,這就是視覺語言模型最典型的應用。
Q2(判斷題):你只有文字資料,還一定要用視覺語言模型嗎? → 不一定,純文字任務通常用語言模型就夠了。
相關術語
常見問題
視覺語言模型和 CLIP 一樣嗎?
不完全一樣,CLIP 是其中一種很重要的基礎模型。
它能直接看影片嗎?
有些變體可以,但影片還牽涉時間資訊,難度更高。
它為什麼能做圖文搜尋?
因為圖像和文字被映射到相近的語意向量空間。