你有沒有看過一張圖,還想直接問模型「這張圖在說什麼」? 你可以把視覺語言模型想成「同時看圖也看字,還能把兩者接起來理解」 它會把影像和文字放到同一個語意空間裡,再做比對、問答或描述生成 這讓它能做圖像說明、視覺問答和跨模態搜尋
你可以把它想成一個把抽象概念拉回日常判斷的提示,先知道它解決什麼問題,再看技術細節。
容易混淆
視覺語言模型 vs 圖像模型 圖像模型只看圖 視覺語言模型同時看圖和字 最關鍵的區別:有沒有跨模態
視覺語言模型 vs 語言模型 語言模型主要看文字 視覺語言模型也看圖像 最關鍵的區別:輸入模態不一樣
視覺語言模型 vs 多模態學習 視覺語言模型是具體模型 多模態學習是更大的研究方向 最關鍵的區別:模型和研究範圍
記住這句就好
看圖和看字要對齊,模型才知道它們在說同一件事。
實際案例
商品搜尋 你上傳一張鞋子照片,模型能找出相似款,因為它同時理解圖像特徵和文字描述
圖片問答 你問「這張桌上有幾個杯子」,模型先看圖再回答,這比純文字模型更適合
算法與應用
| 特徵對齊 | 讓圖像和文字進同一空間 | 這是核心 | | 圖像描述 | 看圖後生成文字 | 常見應用 | | 視覺問答 | 根據圖片回答問題 | 需要跨模態推理 | | 跨模態搜尋 | 用文字找圖、用圖找文字 | 很實用 |
情境判斷
Q1(直覺題): 你要讓系統看圖回答問題,這類模型適合嗎?
Q2(判斷題): 你只有文字資料,還一定要用視覺語言模型嗎?
常見問題
視覺語言模型和 CLIP 一樣嗎?
不完全一樣,CLIP 是其中一種很重要的基礎模型。
它能直接看影片嗎?
有些變體可以,但影片還牽涉時間資訊,難度更高。
它為什麼能做圖文搜尋?
因為圖像和文字被映射到相近的語意向量空間。