你有沒有看過模型一個字接一個字往下生成,像在接話一樣?
你可以把 GPT 想成先在大量資料上學語言,再用一個接一個 token 的方式往前生成內容的模型。
它重要,是因為這種 decoder-only 架構把生成能力做得很順,成了很多大型語言模型的代表。
容易混淆
GPT vs 傳統 Seq2Seq 模型 傳統 Seq2Seq 通常同時有編碼器和解碼器。 GPT 主要走單向生成,專注在往前接續內容。
GPT vs 轉換器架構 轉換器是更大的架構概念。 GPT 是使用其中 decoder 路線的一種代表模型。
記住這句就好
先預訓練,再一個 token 一個 token 往前生,就是 GPT。
實際案例
聊天助理 你輸入一句話,模型接著往下補出完整回應。
內容續寫 給模型一段文章開頭,它可以延伸出後續段落,維持語氣和主題。
算法與應用
它的核心依賴自注意力與自回歸生成,讓模型依照前文逐步產生後續內容。 在摘要、寫作、程式協助和問答裡,這種生成方式都非常常見。
iPAS 考題
Q:GPT 為什麼叫生成式預訓練轉換器? → 因為它先預訓練,再用轉換器架構做生成式輸出。
Q:GPT 的輸出方式有什麼特徵? → 它是自回歸的,會根據前文一步一步生成下一個 token。
情境判斷
Q1: 如果模型能根據前文一路接著往下寫,這和 GPT 的生成方式接近嗎?
Q2: 如果你要雙向理解全文,再做判斷,GPT 一定是最合適的嗎?
常見問題
GPT 和大型語言模型是一樣的嗎?
不完全一樣,GPT 是大型語言模型的一種代表架構。
它只會聊天嗎?
不只,還能摘要、改寫、寫程式和做問答。
為什麼自注意力重要?
因為它能讓模型看見前文裡彼此的關係。
預訓練和微調各負責什麼?
預訓練打底,微調把能力拉向特定任務。