ChatGPT 背後用什麼模型技術?
ChatGPT、Gemini 等對話型生成式 AI 工具所依據的基礎模型技術,下列何者正確?
ChatGPT、Gemini 這類工具,你輸入一句話,它會讀懂你的意思、然後生成一段回應——這就是對話型生成式 AI。
問你:ChatGPT、Gemini 這類對話型生成式 AI 工具,所依據的基礎模型技術是哪一個?
一句話總結
ChatGPT、Gemini 這類對話型生成式 AI 的核心,是大型語言模型(Large Language Model, LLM),用海量文字訓練出來、能理解並生成自然語言的模型。
先感受問題:你每天用的 ChatGPT 是怎麼回話的?
你在 ChatGPT 輸入:「請幫我寫一封請假信,原因是頭痛,語氣正式。」幾秒後,一封格式正確、語氣恰當的信就出現了。
「台灣科技股份有限公司」的人資主管陳怡君每天都在用。她不需要知道背後是什麼技術,但 iPAS 考試會問:這個「讀懂你的話、生出你要的文字」的能力,叫什麼?
這就是語言理解加語言生成的組合,也是 LLM 的核心任務:給一段文字輸入,預測並生成最合適的下一段文字。
LLM 出現之前,電腦怎麼「讀」文字?
在大型語言模型流行之前,想讓電腦處理語言,幾乎全靠規則和統計,困難重重:
- 關鍵字比對:只能找有沒有某個詞,不懂語意。「我不喜歡這個」跟「我喜歡這個」判斷成差不多。
- 決策樹分類:可以做「垃圾郵件 / 非垃圾郵件」,但面對開放式問題完全沒辦法生成文字。
- 早期神經網路:能分類短句,但長篇對話記不住前文,回答常常答非所問。
- 固定模板回覆:電話客服機器人說「請按 1 查餘額、請按 2 轉人工」,完全無法應付沒預設過的問題。
- 知識圖譜查詢:可以回答「台灣首都是哪裡」,但遇到需要推理或創作的問題就卡死了。
以上方法共同的問題:只能在固定框架內動,一遇到開放式語言生成就失靈。
LLM 怎麼解決「讀懂並說話」這件事
大型語言模型(Large Language Model, LLM)的解法很直接:用超大量的文字資料訓練一個深度神經網路,讓模型學會「在這個上下文之後,最可能出現什麼文字」。
陳怡君輸入「幫我寫請假信」,LLM 內部做的事大致是:分析這段指令的意圖、調出訓練時學到的「請假信格式知識」、一個字一個字預測出最適合的回覆。
這背後的關鍵結構是 Transformer 架構,它讓模型能夠「注意到句子中各個字詞之間的關係」,處理長篇文字時也不會忘記前面說了什麼。
GPT(OpenAI)、Gemini(Google)、Claude(Anthropic)都是 LLM 的具體實現,雖然公司不同、訓練資料不同,但底層都是這個架構。
這就是選項 B 講的:大型語言模型(Large Language Model, LLM)正是對話型生成式 AI 工具的基礎模型技術。
技術版:LLM 在 AI 技術體系裡的位置
大型語言模型(LLM)屬於深度學習(Deep Learning)中自然語言處理(NLP)領域的進化型技術。它的「大」體現在兩個維度:訓練資料量(網路上數兆個字)和模型參數數量(GPT-4 據估計超過 1 兆個參數)。
LLM 的核心架構:Transformer。2017 年 Google 提出的 Transformer 架構用「自注意力機制(Self-Attention)」讓模型同時看到整段文字的上下文,解決了早期 RNN 模型記不住長篇內容的問題。現在所有主流 LLM 都建立在 Transformer 上。
LLM 跟四個選項其他技術的差別在哪:
- 決策樹(Decision Tree):是分類和迴歸工具,處理結構化資料,輸出是類別或數值,不能生成文字。
- GAN(生成對抗網路):專長是圖像生成,用「生成器 vs 判別器對抗」的方式產生逼真圖片,不適合文字對話。
- GCN(圖卷積網路):處理圖結構資料,如社交網路節點、知識圖譜,完全不在語言生成的賽道上。
為什麼出題者要考這題:AI 應用規劃師需要能向非技術主管解釋「我們導入的 ChatGPT 是什麼技術」。搞錯底層技術,在評估導入成本、選型、資安風險時都會出差錯。LLM 是當代 AI 應用最重要的技術名詞之一,必考。
為什麼其他選項是錯的
A決策樹(Decision Tree)
一種用樹狀結構做分類或預測的演算法,每個節點是一個判斷條件,最終走到葉節點得出結論。
決策樹處理的是結構化資料(如表格),輸出是固定的類別或數字,完全沒有生成文字的能力。ChatGPT 能生成長篇文章,決策樹做不到。
聽過「AI 做決策」這個詞,以為「決策樹」就是 AI 決策的核心技術的人。兩個是完全不同的概念。
C生成對抗網路(Generative Adversarial Network, GAN)
一種由「生成器」和「判別器」互相對抗訓練的模型,生成器努力生成假資料、判別器努力識破,兩者越來越強。
GAN 的強項是圖像生成(假臉、風格轉換),在文字對話任務上表現不佳,也沒有大規模商業部署成對話 AI。ChatGPT 跟 GAN 毫無關係。
知道 GAN 也是「生成式 AI」的一種,就以為 ChatGPT 也用 GAN 的人。生成式 AI 是個大家族,GAN 跟 LLM 是其中兩個方向不同的成員。
D圖卷積網路(Graph Convolutional Network, GCN)
一種處理「圖結構資料」的神經網路,圖中有節點(node)和邊(edge),GCN 學習節點之間的關係。
GCN 用於社交網路分析、分子結構預測等圖資料任務,跟語言理解和對話生成完全是不同問題。ChatGPT 沒有用到圖卷積網路。
看到「卷積網路」四個字聯想到深度學習很強,以為是對的人。卷積網路(CNN)做圖像很強,但 GCN 是圖資料,跟語言不是同一回事。
同個考點下次怎麼變形
LLM 跟早期的聊天機器人最大的差別是什麼?
兩個都能「跟你說話」,感覺差不多?
早期聊天機器人靠規則和關鍵字比對,只能回答預先設定好的問題,遇到新問法就掛掉。LLM 靠大量文字訓練出的語言理解能力,能處理沒見過的問法、進行多輪對話、生成新內容,是本質上不同的技術。
Transformer 架構跟 LLM 是什麼關係?
常看到這兩個詞,但分不清誰包含誰。
Transformer 是架構,LLM 是用這個架構訓練出來的大型模型。就像「引擎」是架構,「超跑」是用這個引擎造出來的車。幾乎所有現代 LLM(GPT 系列、Gemini、Claude)都建立在 Transformer 架構上。
GAN 和 LLM 都屬於生成式 AI,但擅長的任務不同,如何區分?
兩個都能「生成」東西,在考試裡很容易搞混。
GAN 擅長圖像生成:以假亂真的人臉、風格轉換、影像修復。LLM 擅長文字生成:對話、摘要、翻譯、寫作。簡單記法:GAN 管圖,LLM 管字。
Claude(Anthropic)、GPT-4(OpenAI)、Gemini(Google)三個都叫 LLM,它們有什麼共同點?
品牌不同,是不是技術也完全不同?
三個都基於 Transformer 架構、都用海量文字預訓練、都能做對話和文字生成任務。品牌差異在訓練資料、對齊方式(RLHF)、安全設計、模型大小,但底層技術路線相同。
企業想導入 AI 客服自動回覆,選 LLM 還是決策樹比較適合?
客服問題很多種,感覺要用複雜的技術。
如果問題類型固定、只需分類路由(這是帳務問題還是技術問題),決策樹夠用且成本低。如果需要理解自由格式問題並生成個性化回覆,就需要 LLM。現代企業客服通常混用:決策樹做路由,LLM 做生成回覆。
想再往下看,這 5 個
- 大型語言模型(Large Language Model)以海量文字預訓練的深度神經網路,能理解並生成自然語言,是 ChatGPT、Gemini、Claude 的技術核心
- 基礎模型(Foundation Model)以超大規模資料預訓練、可在多種下游任務微調的通用 AI 模型,LLM 是其中最重要的一類
- 生成式 AI(Generative AI)能創造新內容的 AI 技術總稱,LLM 和 GAN 都屬於此類,但擅長的模態不同
- 生成對抗網路(Generative Adversarial Network)同屬生成式 AI 但專攻圖像生成,與 LLM 的文字生成路線截然不同,是常見混淆選項
- 自然語言處理(Natural Language Processing)讓電腦理解、分析、生成人類語言的 AI 子領域,LLM 是當前 NLP 最強大的技術路線