iPAS AI 應用規劃師初級　科目二　生成式 AI 應用與規劃

AI 程式碼輔助工具的運作原理是什麼？

原題 18

關於 ChatGPT、Anthropic Claude、GitHub Copilot 等 AI 程式碼輔助工具的運作原理，下列敘述何者正確？

白話

題目直接問：ChatGPT、Anthropic Claude、GitHub Copilot 等 AI 程式碼輔助工具，它們的運作原理是什麼？

問你：下列哪一個敘述正確描述了這類工具的運作原理？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

AI 程式碼輔助工具基於 LLM，透過預測下一個符號來生成程式碼，不保證程式碼正確：它們學習的是「什麼接著什麼最常見」，不是「程式碼有沒有 bug」。

02　情境

先感受問題：AI 寫的程式碼可以直接用嗎？

假設你是「創速科技」新創公司的產品主管，團隊最近開始用 GitHub Copilot 輔助開發。工程師小陳問你：「Copilot 給的程式碼我還需要自己測試嗎？還是它出來的一定是對的？」

如果你不懂 AI 程式碼工具的運作原理，你可能覺得「Copilot 是 GitHub 出的，應該會驗證過？」或是「ChatGPT 那麼聰明，寫出來的程式碼邏輯應該沒問題？」

但實際上這些工具的本質是語言模型，它們做的事是「根據前面的文字，預測下一個最可能出現的符號」。就像你打字到一半，手機輸入法猜下一個字一樣，只是這個「輸入法」在幾百億個符號的程式碼上訓練過，猜得很準。但「猜得準」不等於「一定正確」。

這就是為什麼 AI 生成的程式碼一定要人工審查和測試。

03　對照

對 AI 程式碼工具有哪些常見誤解

以為 AI 會執行程式碼再給你：很多人以為 Copilot 在建議程式碼前先「跑看看」。實際上它根本不執行，只是用統計規律預測最可能的接續
以為 AI 內建編譯器：ChatGPT 沒有內建編譯器，它無法在輸出前自動編譯和修正語法錯誤。它輸出的語法錯誤程式碼，你拿去跑才會發現問題
以為 Claude 是從資料庫查答案：Claude 不是搜尋引擎，它不是從「已整理的解答庫」撈出答案，而是即時生成，每次生成都可能略有不同
以為「準確率高」就等於「一定對」：這些工具在常見程式碼場景確實很準，但在罕見的邊界條件、複雜業務邏輯、安全性要求高的程式碼上，錯誤率明顯上升
忽視「不保證正確性」這個核心限制：這不只是官方的免責聲明，而是語言模型本質決定的根本限制：統計預測不等於邏輯驗證

04　解法

正確理解 AI 程式碼工具的運作方式

回到「創速科技」的例子，你告訴小陳工程師這樣理解：

這些工具的本質：GitHub Copilot、ChatGPT、Claude 都建立在大型語言模型（LLM）之上，用大量的程式碼和技術文件訓練。訓練完後，模型學會了「在特定的程式碼上下文之後，什麼符號最可能接著出現」。

生成的過程：你輸入「def calculate_total(items):」，模型根據「這類函式後面通常接什麼」的統計規律，預測並輸出最可能的接續程式碼。整個過程是概率計算，不是邏輯推理，也不是執行驗證。

結果的品質：常見的程式碼模式（如排序、字串處理、資料庫查詢）很準，因為訓練資料中這類範例很多。罕見的、邏輯複雜的、涉及業務規則的程式碼就容易有問題，因為訓練資料中類似範例少。

所以小陳的 workflow 應該是：AI 輔助生成 → 人工審查 → 測試驗證 → 才能部署。

這就是選項 A 講的：基於大型語言模型，透過預測下一個符號生成程式碼，但不保證正確性。

技術版：語言模型生成程式碼的原理

LLM 生成程式碼的機制：語言模型把文字（包括程式碼）拆成 token（符號），訓練目標是「根據前面的 token 序列，預測下一個 token 的概率分布」。生成時，模型每次採樣一個 token 輸出，再把這個 token 加進上下文繼續預測下一個，直到生成完成。這個過程完全是統計計算，不涉及任何執行或邏輯驗證。

為什麼 AI 程式碼會有 bug：訓練資料包含大量人類寫的程式碼，其中包括有 bug 的程式碼。模型學習的是「人類通常怎麼寫」，而不是「什麼程式碼是對的」。此外，模型也沒有對你的執行環境、業務邏輯、安全需求的理解，它只能根據一般的程式碼規律生成。

GitHub Copilot 的特殊設計：Copilot 基於 OpenAI Codex（一個針對程式碼微調的 GPT 模型），訓練資料以程式碼為主，所以在程式碼生成上比通用 LLM 更好。但它同樣沒有執行驗證功能。Copilot X 等進階版本加入了一些測試生成功能，但那是單獨的功能，不是生成時的內建驗證。

為什麼出題者要考這題：AI 應用規劃師在評估 AI 程式碼工具時，必須理解其本質限制。如果以為 AI 生成的程式碼一定正確而跳過人工審查，會造成安全漏洞或業務邏輯錯誤。這題考的是對 AI 工具能力邊界的正確認知。

05　陷阱

為什麼其他選項是錯的

BGitHub Copilot 會在提供程式碼建議前執行並驗證該程式碼，確保其執行結果正確無誤

字面在說什麼

Copilot 給你建議前，會先在背後把程式碼跑一遍，確認沒問題再給你。

為什麼不對

GitHub Copilot 在生成建議時完全沒有執行驗證步驟。它是語言模型的統計生成，不是沙盒執行環境。而且就算想在後台執行，使用者的程式碼通常需要特定的執行環境（特定函式庫版本、資料庫連線、環境變數），根本無法在不知道這些環境的情況下「驗證」。

誰會選錯

以為「工業級工具一定有品質保證機制」的人。商業產品有品質控管，但 AI 生成的「品質控管」是在訓練和產品設計上，不是在每次生成時即時執行驗證。

CAnthropic Claude 的程式碼建議並非即時生成，而是從事先整理的已知解答資料庫中檢索而得

字面在說什麼

Claude 其實是個搜尋引擎，回答你的程式碼問題是從預先準備好的答案庫裡找出來的。

為什麼不對

Claude 是生成式 AI，每次的回應都是即時生成的，不是從固定的答案庫中搜尋。這正是「生成式（Generative）」的意思。如果是搜尋型，它就沒辦法針對你的特定問題給出客製化的程式碼，也不會在同樣的問題上給出略微不同的答案。

誰會選錯

把 AI 助理跟搜尋引擎的運作模式混淆的人。Google 是「搜尋已有的網頁」；Claude 是「即時生成新的回應」。兩者的底層邏輯完全不同。

DChatGPT 內建完整的編譯器，可在輸出程式碼前自動編譯並更正所有語法與邏輯錯誤

字面在說什麼

ChatGPT 有內建的程式碼編譯器，給你的程式碼都是編譯過、確認沒有語法和邏輯問題的。

為什麼不對

ChatGPT 本身沒有內建編譯器（雖然 ChatGPT 的「Code Interpreter」功能可以執行 Python，但那是特定的附加功能，不是每次生成程式碼時的標準流程）。語言模型不能「自動更正邏輯錯誤」，因為它根本不理解你的業務邏輯是什麼，沒有標準可以對照。

大型語言模型（Large Language Model）在大量文字和程式碼上訓練的模型，透過預測下一個符號生成內容，是 Copilot、ChatGPT、Claude 的共同技術基礎
AI 幻覺（Hallucination）LLM 生成不存在或不正確資訊的現象，程式碼中表現為語法正確但邏輯錯誤、或呼叫不存在 API，是本題不保證正確的根本原因
程式碼生成（Code Generation）LLM 根據自然語言描述或上下文生成程式碼的能力，統計預測而非邏輯驗證，輸出需人工審查才能保障品質
微調（Fine-tuning）在通用預訓練模型上以特定領域資料進一步訓練，Copilot 基於 Codex（GPT 的程式碼微調版），使程式碼生成能力強化
符記（Token）LLM 處理文字的基本單位，程式碼生成就是逐 token 預測最可能的接續，而非執行後驗證，這是不保證正確的根源