---
title: "視覺語言模型（Vision-Language Model）"
slug: vision-language-model
language: zh-TW
source: https://aiterms.tw/terms/vision-language-model
updated_at: 2026-04-29
tags: [多模態AI, 電腦視覺, 自然語言處理, 深度學習, 生成式AI]
ipas_term: false
---

# 視覺語言模型（Vision-Language Model）

> **你有沒有看過一張圖，還想直接問模型「這張圖在說什麼」？**
> 你可以把視覺語言模型想成「同時看圖也看字，還能把兩者接起來理解」
> 它會把影像和文字放到同一個語意空間裡，再做比對、問答或描述生成
> 這讓它能做圖像說明、視覺問答和跨模態搜尋
>
> 你可以把它想成一個把抽象概念拉回日常判斷的提示，先知道它解決什麼問題，再看技術細節。

### 容易混淆
> **視覺語言模型 vs 圖像模型**
> 圖像模型只看圖
> 視覺語言模型同時看圖和字
> 最關鍵的區別：有沒有跨模態
>
> **視覺語言模型 vs 語言模型**
> 語言模型主要看文字
> 視覺語言模型也看圖像
> 最關鍵的區別：輸入模態不一樣
>
> **視覺語言模型 vs 多模態學習**
> 視覺語言模型是具體模型
> 多模態學習是更大的研究方向
> 最關鍵的區別：模型和研究範圍
>

### 記住這句就好
> 看圖和看字要對齊，模型才知道它們在說同一件事。

### 實際案例
> **商品搜尋**
> 你上傳一張鞋子照片，模型能找出相似款，因為它同時理解圖像特徵和文字描述
>
> **圖片問答**
> 你問「這張桌上有幾個杯子」，模型先看圖再回答，這比純文字模型更適合
>

### 算法與應用
> | 特徵對齊 | 讓圖像和文字進同一空間 | 這是核心 |
> | 圖像描述 | 看圖後生成文字 | 常見應用 |
> | 視覺問答 | 根據圖片回答問題 | 需要跨模態推理 |
> | 跨模態搜尋 | 用文字找圖、用圖找文字 | 很實用 |

### 情境判斷
> **Q1（直覺題）：你要讓系統看圖回答問題，這類模型適合嗎？**
> → 適合，這就是視覺語言模型最典型的應用。
>
> **Q2（判斷題）：你只有文字資料，還一定要用視覺語言模型嗎？**
> → 不一定，純文字任務通常用語言模型就夠了。
>
### 常見問題
> **Q：視覺語言模型和 CLIP 一樣嗎？**
> 不完全一樣，CLIP 是其中一種很重要的基礎模型。
>
> **Q：它能直接看影片嗎？**
> 有些變體可以，但影片還牽涉時間資訊，難度更高。
>
> **Q：它為什麼能做圖文搜尋？**
> 因為圖像和文字被映射到相近的語意向量空間。
>

### 相關術語
> - **電腦視覺**：先理解圖像端的基礎
> - **多模態學習**：視覺語言模型的上位概念
> - **視覺問答**：最經典的應用之一
> - **對比語言圖像預訓練**：很常見的基礎模型路線

---

來源：https://aiterms.tw/terms/vision-language-model
快查頁：https://aiterms.tw/terms/vision-language-model
最後更新：2026/04/29
深度解說：https://aiterms.tw/learning/what-is-vision-language-model