iPAS AI 應用規劃師 中級 科目一

AI 生成內容的著作權風險怎麼防?

原題 25

某企業部署生成式 AI 系統協助行銷與內容產出,但近期遭質疑部分生成內容可能涉及著作權侵權。為降低企業在法律層面的潛在責任與風險,下列哪一項策略最能有效預防侵權問題產生?

白話

一家企業用生成式 AI(Generative AI)幫忙產出行銷文案和內容,但有人質疑這些 AI 生成的內容可能抄了別人有著作權的作品。

問你:下列四個策略中,哪一個最能有效預防著作權侵權問題產生?

點選你的答案。

01 總結

一句話總結

著作權侵權的根源在訓練資料,因此最有效的預防是:建立訓練資料篩選與授權驗證機制,從源頭排除沒有授權的版權內容進入訓練集

02 情境

先感受問題:AI 說出了不該說的話

假設你在「創意雲端」公司負責一套 AI 文案生成系統,幫客戶自動產出廣告文案。

有一天,一位廣告客戶用你的系統生成了一段文案,發布在網路上,結果被一位作家指出:這段文案和她 2019 年出版的散文集有段落幾乎一模一樣。

原因:你的 AI 訓練資料裡包含了這位作家的散文(從某個書摘網站爬的),模型在某些提示下會「回憶」出訓練資料裡的段落,幾乎逐字複製出來。

法律問題:創意雲端使用了未授權的版權內容訓練模型
業務問題:客戶的廣告被迫下架,要求索賠
聲譽問題:媒體報導,公司信譽受損

現在你要決定:哪個防禦策略最能從根本上預防這件事再次發生?

03 對照

事後偵測和出口管控,沒辦法解決根本問題

直覺上你可能想到這幾種做法,但各有缺陷:

  1. 生成後再比對(選項 A 的思路):永遠在追趕:你需要一個涵蓋全部版權作品的比對資料庫,但版權作品有幾十億篇,根本建不完。而且 AI 可能做了改寫讓直接比對失效,語意相似度判斷又有大量誤判。
  2. 浮水印追溯(選項 D 的思路):只解決「誰生的」,不解決「有沒有侵權」:浮水印讓你知道這段文字是你的 AI 生的,但不能讓侵權的文字「變得合法」。侵權行為已發生,浮水印只是讓後續責任追究更容易,不是預防。
  3. 差分隱私(選項 C 的思路):保護隱私,但不等於著作權保護:差分隱私可以防止模型「記憶」特定訓練樣本,在隱私層面有幫助,但著作權侵權不只是「記憶」問題,模型學到版權內容的「風格、結構、表達方式」也可能侵權,差分隱私沒辦法完全解決這個問題。
  4. 沒有解決「未授權資料進了訓練集」的事實:上面三個做法都是在事後補救,真正的問題是:版權資料本來就不應該進訓練集。
  5. 事後補救的法律風險仍然存在:只要訓練資料包含未授權版權內容,企業就已經承擔了潛在的法律責任,不管後端加了多少保護措施。
04 解法

從源頭管控訓練資料:最有效的預防

回到創意雲端的問題。根本解法是:在資料進入訓練集之前就做授權審核

具體做法:

建立資料來源白名單:只使用授權的資料來源(付費版權資料庫、Creative Commons 授權、公共領域作品)
每個資料來源記錄授權文件:URL、授權類型、授權日期、授權範圍
高風險來源直接排除:書摘網站、社群媒體貼文、新聞文章(版權歸出版社)
爭議性資料送法務審查:不確定版權狀態的資料,寧可不用

這樣一來,AI 訓練時接觸的資料全部都有合法授權,生成的內容即使「靈感來自訓練資料」,法律責任也大幅降低。

這就是選項 B 講的:建立訓練資料篩選與授權驗證機制,排除未授權或高風險資料來源

技術版:訓練資料授權管理與版權合規實務

本題沒有程式碼,但相關技術與法律背景值得知道。

資料卡(Data Card / Model Card):負責任的 AI 開發現在要求每個訓練資料集都要有資料卡,記錄:資料來源、收集方式、版權狀態、授權類型、資料清理步驟、已知偏誤。這讓企業在法律爭議時能說清楚「我們的資料從哪來、有沒有授權」。

CC 授權(Creative Commons)分級

  • CC0:公共領域,任意使用
  • CC BY:可商業使用,需標明來源
  • CC BY-SA:可商業使用,衍生作品需相同授權
  • CC BY-NC:不可商業使用
  • CC BY-ND:不可修改(不能用來訓練 AI)

著作權侵權的法律框架(以美國為例)

  • 直接侵權(Direct Infringement):直接複製版權內容
  • 間接侵權(Contributory/Vicarious Infringement):企業協助他人侵權(讓用戶用 AI 生成侵權內容)
  • Fair Use(合理使用):研究、教育、批評目的可能受保護,但商業用途的 AI 訓練是否屬於合理使用目前仍有爭議(多起訴訟進行中)

差分隱私(Differential Privacy)的限制:差分隱私在技術上限制模型從單一訓練樣本「記憶」個人資料,對防止逐字複製有一定效果,但:(1) 模型仍可能學到版權作品的整體風格和結構;(2) 差分隱私會降低模型效能(有代價);(3) 司法實務上還沒有確認「差分隱私訓練的模型不侵犯著作權」的判例。

浮水印(AI Watermarking)的用途:嵌入浮水印是為了「事後歸因」,讓人知道「這段內容是 AI 生成的,而且是哪個 AI 生成的」。這對企業的責任追究有幫助(可以指出是哪個模型生的),但無法讓已侵權的生成結果變得合法。

05 陷阱

為什麼其他選項不是最有效的預防

A對生成內容進行語意相似度比對,自動標註可能涉及既有著作的輸出結果

字面在說什麼

AI 生成內容後,自動和現有版權作品做語意比對,如果相似度高就標記出來,讓人工審查再決定要不要用。

為什麼不是最有效的

這是「事後偵測」,代表侵權內容已經被生成了,只是沒有被發布。問題一:你需要比對的資料庫需要涵蓋幾十億篇版權作品,現實上不可能做到完整覆蓋;問題二:語意相似度的判斷標準模糊,高相似不一定侵權、低相似也可能侵權(取決於法律判斷);問題三:這個機制成本高、誤報率高,每天生成大量內容的企業很難維持。根本問題沒解決:訓練資料裡還是有未授權的版權內容。

誰會選錯

覺得「生成後再過濾就夠了」的考生。記住:過濾不能取代授權。只要訓練資料包含未授權作品,企業的法律責任就已經存在,不管後端過不過濾。

C在訓練與微調過程中採用差分隱私技術,避免模型記憶特定受著作權保護的樣本

字面在說什麼

訓練時加入差分隱私機制,讓模型在學習過程中「刻意模糊」個別訓練樣本的記憶,避免逐字複製出訓練資料。

為什麼不是最有效的

差分隱私解決的是「記憶特定樣本」的問題,但著作權侵權的範圍比這更廣:模型即使不逐字複製,只要學到版權作品獨特的表達方式、結構或語言風格,在法律上也可能構成衍生著作(derivative work)問題。此外差分隱私會讓模型效能下降,在大規模商業應用上有代價。最根本的問題是:差分隱私不改變「訓練資料包含未授權版權內容」的事實,企業的法律責任仍然存在。

誰會選錯

把差分隱私當成萬靈丹的考生,或是把「隱私保護」和「版權保護」混為一談的考生。記住:差分隱私是隱私技術(保護個人資料不被推斷),不是版權合規技術。

D在模型輸出端嵌入浮水印或數位指紋技術,以確保生成內容可追溯

字面在說什麼

在 AI 生成的每段文字裡嵌入不可見的標記,讓人能追蹤「這段內容是誰的 AI 生成的」。

為什麼不是最有效的

浮水印的功能是「歸因(attribution)」,不是「預防侵權」。就算你在每段 AI 生成文字裡嵌入浮水印,如果這段文字本來就侵犯了別人的著作權,浮水印只是告訴法院「這是你的 AI 生的」,讓你更難逃責任,而不是保護你。更準確地說:浮水印對被侵權的一方有幫助(可以追到侵權 AI 的來源),對侵權的 AI 開發者反而不利。

誰會選錯

把「可追溯」理解成「可以躲避責任」的考生。注意:追溯讓責任更清楚,不是讓侵權行為消失。預防侵權和追溯責任是兩件不同的事。

06 變形

同個考點下次怎麼變形

變形 1 邊界

如果只用「公共領域(Public Domain)」資料訓練,還有著作權風險嗎?

直覺

公共領域不是沒有版權限制嗎?應該最安全?

答案

仍有風險。注意幾個陷阱:(1) 公共領域的定義因國家和時代不同:美國 1928 年前的作品是公共領域,但台灣的規則不同;(2) 公共領域作品的「新版本」可能有新版權:古典音樂(無版權)但某樂團 2020 年的演奏(有版權);(3) 資料收集方式本身可能違反網站的服務條款,即使內容是公共領域,爬蟲行為也可能有法律問題;(4) 訓練資料和用戶資料的混淆:如果用戶輸入版權內容,AI 在訓練時學到了,這部分也需要管控。

變形 2 反例

建立授權驗證機制一定能保護企業免於所有著作權訴訟嗎?

直覺

授權驗證做好了,是不是就完全沒有法律風險了?

答案

不一定,但能大幅降低風險。剩餘風險包括:(1) 授權協議的解釋爭議:即使有授權,「AI 訓練」是否在授權範圍內仍有爭議(很多早期授權文件沒有考慮到 AI 用途);(2) 衍生著作問題:即使輸入有授權,AI 生成的「衍生著作」是否需要另外取得授權;(3) 國際法律差異:A 國的授權在 B 國可能不被承認。但相比「使用未授權資料」,建立授權機制的法律地位強得多。

變形 3 升級版

生成式 AI 的著作權問題在法律上目前怎麼處理?

直覺

AI 生成的內容到底有沒有版權?著作權屬於誰?

答案

目前(2024-2025 年)各國做法不同,法律仍在發展中。美國版權局的立場:純粹由 AI 生成的內容沒有版權(因為缺乏人類作者);但人類顯著介入(如特定提示設計、選擇和編排)的部分可能受保護。訓練資料侵權方面:多起訴訟仍在進行中(Getty Images v. Stability AI、Authors Guild v. OpenAI 等)。台灣著作權法目前沒有明確規定 AI 生成內容的版權歸屬,通常認為 AI 不能成為著作權人,著作權歸操作 AI 的人,但仍有爭議。

變形 4 跨領域

圖像生成 AI(如 Stable Diffusion)的著作權問題和文字 AI 有什麼不同?

直覺

圖像是另一個媒介,版權問題應該不一樣?

答案

圖像 AI 的問題更具體可見。文字 AI 的侵權通常需要語意比對才能發現;圖像 AI 有時會直接生成和訓練圖像幾乎一模一樣的輸出(style memorization),肉眼就能看出。此外圖像 AI 還有「畫風侵權」爭議:即使沒有直接複製,只要輸出讓人感覺「就是某藝術家的畫風」,藝術家可能認為這侵犯了他們獨特的藝術表達。這在法律上更難定義和舉證。

變形 5 評估指標

企業如何評估自己的 AI 系統的著作權合規程度?

直覺

合規是法律問題,怎麼量化評估?

答案

可以從幾個角度評估:(1) 訓練資料覆蓋率:已驗證授權的資料占總訓練資料的比例(目標 100%);(2) 記憶洩漏率(Memorization Rate):隨機抽樣,用 prompt 誘導模型輸出訓練資料,看有多高比例能成功複製出完整句段(越低越好);(3) 相似度分佈:抽查生成內容和版權作品的語意相似度分佈,有沒有超出閾值的異常;(4) 法律審計:請版權專業律師審查訓練資料授權文件的覆蓋率和有效性。

07 延伸

想再往下看,這 5 個

出處

iPAS 經濟部產業人才能力鑑定 ・ 114 年第二次 iPAS AI 應用規劃師 中級 科目一 第 25 題

查看官方原文 PDF