iPAS AI 應用規劃師中級　科目一

AI 生成內容的著作權風險怎麼防？

原題 25

某企業部署生成式 AI 系統協助行銷與內容產出，但近期遭質疑部分生成內容可能涉及著作權侵權。為降低企業在法律層面的潛在責任與風險，下列哪一項策略最能有效預防侵權問題產生？

白話

一家企業用生成式 AI（Generative AI）幫忙產出行銷文案和內容，但有人質疑這些 AI 生成的內容可能抄了別人有著作權的作品。

問你：下列四個策略中，哪一個最能有效預防著作權侵權問題產生？

點選你的答案。

← 回 50 題列表回 iPAS 備考總覽

01　總結

一句話總結

著作權侵權的根源在訓練資料，因此最有效的預防是：建立訓練資料篩選與授權驗證機制，從源頭排除沒有授權的版權內容進入訓練集。

02　情境

先感受問題：AI 說出了不該說的話

假設你在「創意雲端」公司負責一套 AI 文案生成系統，幫客戶自動產出廣告文案。

有一天，一位廣告客戶用你的系統生成了一段文案，發布在網路上，結果被一位作家指出：這段文案和她 2019 年出版的散文集有段落幾乎一模一樣。

原因：你的 AI 訓練資料裡包含了這位作家的散文（從某個書摘網站爬的），模型在某些提示下會「回憶」出訓練資料裡的段落，幾乎逐字複製出來。

法律問題：創意雲端使用了未授權的版權內容訓練模型
業務問題：客戶的廣告被迫下架，要求索賠
聲譽問題：媒體報導，公司信譽受損

現在你要決定：哪個防禦策略最能從根本上預防這件事再次發生？

03　對照

事後偵測和出口管控，沒辦法解決根本問題

直覺上你可能想到這幾種做法，但各有缺陷：

生成後再比對（選項 A 的思路）：永遠在追趕：你需要一個涵蓋全部版權作品的比對資料庫，但版權作品有幾十億篇，根本建不完。而且 AI 可能做了改寫讓直接比對失效，語意相似度判斷又有大量誤判。
浮水印追溯（選項 D 的思路）：只解決「誰生的」，不解決「有沒有侵權」：浮水印讓你知道這段文字是你的 AI 生的，但不能讓侵權的文字「變得合法」。侵權行為已發生，浮水印只是讓後續責任追究更容易，不是預防。
差分隱私（選項 C 的思路）：保護隱私，但不等於著作權保護：差分隱私可以防止模型「記憶」特定訓練樣本，在隱私層面有幫助，但著作權侵權不只是「記憶」問題，模型學到版權內容的「風格、結構、表達方式」也可能侵權，差分隱私沒辦法完全解決這個問題。
沒有解決「未授權資料進了訓練集」的事實：上面三個做法都是在事後補救，真正的問題是：版權資料本來就不應該進訓練集。
事後補救的法律風險仍然存在：只要訓練資料包含未授權版權內容，企業就已經承擔了潛在的法律責任，不管後端加了多少保護措施。

04　解法

從源頭管控訓練資料：最有效的預防

回到創意雲端的問題。根本解法是：在資料進入訓練集之前就做授權審核。

具體做法：

建立資料來源白名單：只使用授權的資料來源（付費版權資料庫、Creative Commons 授權、公共領域作品）
每個資料來源記錄授權文件：URL、授權類型、授權日期、授權範圍
高風險來源直接排除：書摘網站、社群媒體貼文、新聞文章（版權歸出版社）
爭議性資料送法務審查：不確定版權狀態的資料，寧可不用

這樣一來，AI 訓練時接觸的資料全部都有合法授權，生成的內容即使「靈感來自訓練資料」，法律責任也大幅降低。

這就是選項 B 講的：建立訓練資料篩選與授權驗證機制，排除未授權或高風險資料來源。

技術版：訓練資料授權管理與版權合規實務

本題沒有程式碼，但相關技術與法律背景值得知道。

資料卡（Data Card / Model Card）：負責任的 AI 開發現在要求每個訓練資料集都要有資料卡，記錄：資料來源、收集方式、版權狀態、授權類型、資料清理步驟、已知偏誤。這讓企業在法律爭議時能說清楚「我們的資料從哪來、有沒有授權」。

CC 授權（Creative Commons）分級：

CC0：公共領域，任意使用
CC BY：可商業使用，需標明來源
CC BY-SA：可商業使用，衍生作品需相同授權
CC BY-NC：不可商業使用
CC BY-ND：不可修改（不能用來訓練 AI）

著作權侵權的法律框架（以美國為例）：

直接侵權（Direct Infringement）：直接複製版權內容
間接侵權（Contributory/Vicarious Infringement）：企業協助他人侵權（讓用戶用 AI 生成侵權內容）
Fair Use（合理使用）：研究、教育、批評目的可能受保護，但商業用途的 AI 訓練是否屬於合理使用目前仍有爭議（多起訴訟進行中）

差分隱私（Differential Privacy）的限制：差分隱私在技術上限制模型從單一訓練樣本「記憶」個人資料，對防止逐字複製有一定效果，但：(1) 模型仍可能學到版權作品的整體風格和結構；(2) 差分隱私會降低模型效能（有代價）；(3) 司法實務上還沒有確認「差分隱私訓練的模型不侵犯著作權」的判例。

浮水印（AI Watermarking）的用途：嵌入浮水印是為了「事後歸因」，讓人知道「這段內容是 AI 生成的，而且是哪個 AI 生成的」。這對企業的責任追究有幫助（可以指出是哪個模型生的），但無法讓已侵權的生成結果變得合法。

05　陷阱

為什麼其他選項不是最有效的預防

A對生成內容進行語意相似度比對，自動標註可能涉及既有著作的輸出結果

字面在說什麼

AI 生成內容後，自動和現有版權作品做語意比對，如果相似度高就標記出來，讓人工審查再決定要不要用。

為什麼不是最有效的

這是「事後偵測」，代表侵權內容已經被生成了，只是沒有被發布。問題一：你需要比對的資料庫需要涵蓋幾十億篇版權作品，現實上不可能做到完整覆蓋；問題二：語意相似度的判斷標準模糊，高相似不一定侵權、低相似也可能侵權（取決於法律判斷）；問題三：這個機制成本高、誤報率高，每天生成大量內容的企業很難維持。根本問題沒解決：訓練資料裡還是有未授權的版權內容。

誰會選錯

覺得「生成後再過濾就夠了」的考生。記住：過濾不能取代授權。只要訓練資料包含未授權作品，企業的法律責任就已經存在，不管後端過不過濾。

C在訓練與微調過程中採用差分隱私技術，避免模型記憶特定受著作權保護的樣本

字面在說什麼

訓練時加入差分隱私機制，讓模型在學習過程中「刻意模糊」個別訓練樣本的記憶，避免逐字複製出訓練資料。

為什麼不是最有效的

差分隱私解決的是「記憶特定樣本」的問題，但著作權侵權的範圍比這更廣：模型即使不逐字複製，只要學到版權作品獨特的表達方式、結構或語言風格，在法律上也可能構成衍生著作（derivative work）問題。此外差分隱私會讓模型效能下降，在大規模商業應用上有代價。最根本的問題是：差分隱私不改變「訓練資料包含未授權版權內容」的事實，企業的法律責任仍然存在。

誰會選錯

把差分隱私當成萬靈丹的考生，或是把「隱私保護」和「版權保護」混為一談的考生。記住：差分隱私是隱私技術（保護個人資料不被推斷），不是版權合規技術。

D在模型輸出端嵌入浮水印或數位指紋技術，以確保生成內容可追溯

字面在說什麼

在 AI 生成的每段文字裡嵌入不可見的標記，讓人能追蹤「這段內容是誰的 AI 生成的」。

為什麼不是最有效的

浮水印的功能是「歸因（attribution）」，不是「預防侵權」。就算你在每段 AI 生成文字裡嵌入浮水印，如果這段文字本來就侵犯了別人的著作權，浮水印只是告訴法院「這是你的 AI 生的」，讓你更難逃責任，而不是保護你。更準確地說：浮水印對被侵權的一方有幫助（可以追到侵權 AI 的來源），對侵權的 AI 開發者反而不利。

誰會選錯

把「可追溯」理解成「可以躲避責任」的考生。注意：追溯讓責任更清楚，不是讓侵權行為消失。預防侵權和追溯責任是兩件不同的事。

06　變形

同個考點下次怎麼變形

變形 1　邊界

如果只用「公共領域（Public Domain）」資料訓練，還有著作權風險嗎？

直覺

公共領域不是沒有版權限制嗎？應該最安全？

答案

仍有風險。注意幾個陷阱：(1) 公共領域的定義因國家和時代不同：美國 1928 年前的作品是公共領域，但台灣的規則不同；(2) 公共領域作品的「新版本」可能有新版權：古典音樂（無版權）但某樂團 2020 年的演奏（有版權）；(3) 資料收集方式本身可能違反網站的服務條款，即使內容是公共領域，爬蟲行為也可能有法律問題；(4) 訓練資料和用戶資料的混淆：如果用戶輸入版權內容，AI 在訓練時學到了，這部分也需要管控。

變形 2　反例

建立授權驗證機制一定能保護企業免於所有著作權訴訟嗎？

直覺

授權驗證做好了，是不是就完全沒有法律風險了？

答案

不一定，但能大幅降低風險。剩餘風險包括：(1) 授權協議的解釋爭議：即使有授權，「AI 訓練」是否在授權範圍內仍有爭議（很多早期授權文件沒有考慮到 AI 用途）；(2) 衍生著作問題：即使輸入有授權，AI 生成的「衍生著作」是否需要另外取得授權；(3) 國際法律差異：A 國的授權在 B 國可能不被承認。但相比「使用未授權資料」，建立授權機制的法律地位強得多。

變形 3　升級版

生成式 AI 的著作權問題在法律上目前怎麼處理？

直覺

AI 生成的內容到底有沒有版權？著作權屬於誰？

答案

目前（2024-2025 年）各國做法不同，法律仍在發展中。美國版權局的立場：純粹由 AI 生成的內容沒有版權（因為缺乏人類作者）；但人類顯著介入（如特定提示設計、選擇和編排）的部分可能受保護。訓練資料侵權方面：多起訴訟仍在進行中（Getty Images v. Stability AI、Authors Guild v. OpenAI 等）。台灣著作權法目前沒有明確規定 AI 生成內容的版權歸屬，通常認為 AI 不能成為著作權人，著作權歸操作 AI 的人，但仍有爭議。

變形 4　跨領域

圖像生成 AI（如 Stable Diffusion）的著作權問題和文字 AI 有什麼不同？

直覺

圖像是另一個媒介，版權問題應該不一樣？

答案

圖像 AI 的問題更具體可見。文字 AI 的侵權通常需要語意比對才能發現；圖像 AI 有時會直接生成和訓練圖像幾乎一模一樣的輸出（style memorization），肉眼就能看出。此外圖像 AI 還有「畫風侵權」爭議：即使沒有直接複製，只要輸出讓人感覺「就是某藝術家的畫風」，藝術家可能認為這侵犯了他們獨特的藝術表達。這在法律上更難定義和舉證。

變形 5　評估指標

企業如何評估自己的 AI 系統的著作權合規程度？

直覺

合規是法律問題，怎麼量化評估？

答案

可以從幾個角度評估：(1) 訓練資料覆蓋率：已驗證授權的資料占總訓練資料的比例（目標 100%）；(2) 記憶洩漏率（Memorization Rate）：隨機抽樣，用 prompt 誘導模型輸出訓練資料，看有多高比例能成功複製出完整句段（越低越好）；(3) 相似度分佈：抽查生成內容和版權作品的語意相似度分佈，有沒有超出閾值的異常；(4) 法律審計：請版權專業律師審查訓練資料授權文件的覆蓋率和有效性。

07　延伸

想再往下看，這 5 個

差分隱私（Differential Privacy）訓練時加入噪音，限制模型記憶特定訓練樣本，是本題選項 C 的技術核心，對著作權侵權有部分預防效果。
AI浮水印（AI Watermarking）在生成內容中嵌入不可見標記，功能是事後歸因追蹤，本題選項 D，能追蹤但不能預防侵權。
生成式 AI（Generative AI）本題企業使用的核心技術，生成式 AI 在著作權法律框架尚未明確的環境下，訓練資料合規性是最大風險來源。
資料品質監控（Data Quality Monitoring）持續監控訓練資料來源的合規性，與授權驗證機制搭配，是防止版權侵權的上游治理手段。
負責任AI（Responsible AI）包含著作權合規在內的 AI 倫理框架，企業建立資料授權機制是負責任 AI 治理的具體落地實踐。