歐盟《人工智慧法案》 (EU AI Act) 是全球首部全面的人工智慧立法,現已正式生效,它將影響我們開發和使用人工智慧的方式——包括在開源社群中的實踐。如果您是一位開源開發者,正在適應這一新環境,可能會想知道這對您的專案意味著什麼。本指南重點解讀了該法規的關鍵要點,特別是針對開源開發者,提供了對這一法規的清晰介紹,並指引您使用相關工具來幫助合規。
免責宣告:本指南提供的資訊僅供參考,不能被視為任何形式的法律建議。
快速摘要 (TL;DR): 《人工智慧法案》可能適用於開源 AI 系統和模型,具體規則取決於模型的型別及其釋出方式。在大多數情況下,義務包括提供清晰的文件、為部署時披露模型資訊新增工具,並遵守現有的版權和隱私規則。幸運的是,許多這些實踐已經是開源領域的常見做法。Hugging Face 提供了一些工具來幫助您準備合規,包括支援退出流程、個人資料刪除的工具以及文件和許可管理工具。檢視 模型卡、資料集卡、Gradio、水印工具、支援 退出機制的 工具、個人資料刪除、許可 等!
歐盟《人工智慧法案》是一項具有法律約束力的法規,旨在推動負責任的人工智慧發展。為此,它根據人工智慧系統或模型可能帶來的風險等級設定了相應的規則,同時致力於保護開放研究並支援中小型企業 (SMEs)。如果你是開源開發者,許多工作可能不會受到直接影響,特別是如果你已經在記錄系統和跟蹤資料來源的話。總體而言,你可以採取一些簡單的步驟來做好合規準備。
這項法規將在未來兩年內全面生效,適用範圍廣泛,不僅限於歐盟內的個人或機構。如果你是歐盟以外的開源開發者,但你的人工智慧系統或模型在歐盟範圍內提供或對歐盟使用者產生影響,那麼它們也會受到這項法案的約束。
🤗 適用範圍
該法規適用於人工智慧技術棧的不同層級,這意味著如果你是供應方 (包括開發者)、部署方、分發方等,或者你從事的是人工智慧模型或系統的工作,將會有不同的義務。
模型: 僅 通用人工智慧 (GPAI) 模型直接受到法規監管。GPAI 模型是使用海量資料訓練的模型,具有顯著的通用性,可以執行廣泛的任務,並可用於系統和應用程式。例如,大型語言模型 (LLM) 就是一個例子。對模型的修改或微調也需要符合相關義務。 | 系統: 能夠基於輸入進行推理的系統。這通常以傳統的軟體技術棧形式出現,利用或連線一個或多個人工智慧模型來處理輸入的數字表示。例如,與終端使用者互動的聊天機器人,它利用 LLM 或託管在 Hugging Face Spaces 上的 Gradio 應用。 |
---|
在《人工智慧法案》中,規則根據人工智慧系統或模型可能帶來的風險等級進行調整。對於所有人工智慧系統,風險可能包括以下幾種:
- 不可接受: 違反人權的系統,例如從網際網路上抓取面部影像或使用閉路電視畫面的人工智慧系統。這類系統被禁止,不能進入市場。
- 高風險: 可能對人們的安全或基本權利產生不利影響的系統,例如處理關鍵基礎設施、基本服務或執法的系統。這類系統需要在進入市場之前遵循嚴格的合規步驟。
- 有限風險: 直接與人互動並可能導致冒充、操控或欺騙風險的系統。這類系統需要滿足透明性要求。大多數生成式人工智慧模型可以整合到屬於這一類別的系統中。作為模型開發者,如果你已經遵守相關要求,例如提供充分的文件,你的模型將更容易被整合到人工智慧系統中。
- 最小風險: 大多數系統——即不構成上述風險的系統。它們只需遵守現有法律法規,《人工智慧法案》未增加額外要求。
對於 通用人工智慧 (GPAI) 模型,還存在另一個風險類別,稱為 系統性風險: 即使用大量計算能力的 GPAI 模型,目前定義為訓練時計算能力超過 \(10^{25}\) FLOPs,或者具有高影響能力的模型。根據 史丹佛大學的一項研究,截至 2024 年 8 月,根據 Epoch 的估算,只有八個模型 (Gemini 1.0 Ultra、Llama 3.1-405B、GPT-4、Mistral Large、Nemotron-4 340B、MegaScale、Inflection-2、Inflection-2.5) 來自七個開發者 (Google、Meta、OpenAI、Mistral、NVIDIA、位元組跳動、Inflection) 符合系統性風險的預設標準,即其訓練至少使用了 \(10^{25}\) FLOPs。模型是否開源會影響其義務的具體內容。
🤗 如何為合規做好準備
本指南的 重點 是針對 有限風險人工智慧系統和非系統性風險的開源通用人工智慧 (GPAI) 模型,這些內容應該涵蓋了 Hugging Face 平臺上大部分公開可用的資源。對於其他風險類別,請務必查閱可能適用的其他義務。
針對有限風險人工智慧系統
有限風險的人工智慧系統直接與人 (終端使用者) 互動,可能帶來冒充、操控或欺騙的風險。例如,生成文字的聊天機器人或文字到影像生成器——這些工具也可能被用來生成誤導性內容或深度偽造 (deepfake)。《人工智慧法案》的目標是透過幫助普通終端使用者瞭解他們正在與人工智慧系統互動來應對這些風險。目前,大多數通用人工智慧模型尚不被視為具有系統性風險。在有限風險人工智慧系統的情況下,無論它們是否開源,都需要遵守以下義務:
有限風險人工智慧系統的開發者需要:
- 向使用者披露他們正在與人工智慧系統互動,除非這一點顯而易見。需要注意,終端使用者可能沒有與技術專家相同的技術理解,因此你需要以清晰且詳盡的方式提供這一資訊。
- 標記合成內容: 人工智慧生成的內容 (如音訊、影像、影片、文字) 必須明確標記為人工生成或人工操控,並以機器可讀的格式提供。現有的工具 (例如 Gradio 的 內建水印功能) 可以幫助你滿足這些要求。
需要注意的是,你不僅可能是人工智慧系統的“開發者”,還可能是“部署者”。
人工智慧系統的部署者是指在其專業領域中使用人工智慧系統的人或公司。在這種情況下,還需要遵守以下義務:
- 對於情緒識別和生物特徵識別系統: 部署者必須告知個人這些系統的使用情況,並按照相關法規處理個人資料。
- 披露深度偽造和人工智慧生成的內容: 部署者必須披露何時使用了人工智慧生成的內容。如果內容屬於藝術作品的一部分,則需以不破壞使用者體驗的方式披露內容是生成或操控的。
以上資訊需要用清晰的語言提供,並且最遲需要在使用者首次與人工智慧系統互動或接觸時披露。
人工智慧辦公室 (AI Office) 負責執行《人工智慧法案》,將協助制定實踐準則,提供檢測和標記人工生成內容的指導。這些準則目前正在由行業和民間社會參與撰寫,預計將於 2025 年 5 月釋出。相關條款將從 2026 年 8 月開始實施。
針對非系統性風險的開源通用人工智慧 (GPAI) 模型
如果你正在開發非系統性風險的開源通用人工智慧 (GPAI) 模型,例如大型語言模型 (LLM),以下條款將適用。根據《人工智慧法案》,開源 是指“在免費和開源許可下發布的軟體和資料,包括模型,可以自由共享,並允許使用者自由訪問、使用、修改和再分發它們或其修改版本”。開發者可以從 Hugging Face 平臺上列出的 開源許可證 中選擇適合的許可證,並檢查所選許可證是否符合 《人工智慧法案》的開源定義。
對於非系統性風險的開源 GPAI 模型的義務如下:
-
撰寫並提供充分詳細的訓練內容摘要:
根據人工智慧辦公室 (AI Office) 提供的模板,開發者需要撰寫並公開一份足夠詳細的總結,描述用於訓練 GPAI 模型的內容。- 訓練內容的細節級別尚在討論中,但應相對全面。
-
實施一項符合歐盟版權法及相關權利的政策,特別是針對選擇退出 (opt-out) 的合規政策:
開發者需要確保他們被授權使用受版權保護的材料,這可以透過權利人的授權獲得,或在適用版權例外和限制的情況下使用。其中一個例外是“文字與資料探勘 (TDM) ”例外,這項技術廣泛用於檢索和分析內容。然而,當權利人明確表示保留其作品用於這些目的的權利時 (即選擇退出) ,TDM 例外通常不適用。
在制定符合歐盟《版權指令》的政策時,這些選擇退出應被尊重,並限制或禁止使用受保護的材料。換句話說,只要尊重作者選擇退出人工智慧訓練的決定,基於版權材料的訓練並不違法。- 關於選擇退出應如何以技術方式表達 (尤其是機器可讀的格式) ,仍有一些未決問題。然而,尊重網站 robots.txt 檔案中表達的資訊並使用類似 Spawning 提供的 API 是一個良好的起點。
《人工智慧法案》還與現有的版權和個人資料法規 (如 版權指令 和 資料保護法規) 掛鉤。
在這方面,你可以參考 Hugging Face 整合的工具,例如 支援 改進 選擇退出 機制的工具,以及 個人資料刪除 工具,同時關注歐洲和國家機構 (如 法國資料保護局 CNIL) 的建議。
在 Hugging Face 平臺上的專案中,已有實現選擇退出訓練資料機制的案例,例如 BigCode 團隊的 Am I In The Stack 應用,以及整合了 Spawning 小部件以處理包含影像 URL 的資料集。透過這些工具,創作者可以簡單地選擇退出,拒絕其受版權保護的材料被用於人工智慧訓練。隨著選擇退出流程的不斷開發,這些工具能有效幫助創作者公開表達他們不希望其內容用於人工智慧訓練的決定。
開發者可以依賴實踐準則 (目前正在制定中,預計將於 2025 年 5 月釋出) 來證明其已履行這些義務。
如果你的工作方式不符合《人工智慧法案》中對 開源 的定義,則需要遵守其他義務。
此外,請注意,如果某個 GPAI 模型滿足系統性風險的條件,其開發者必須通知歐盟委員會。在通知過程中,開發者可以根據模型的具體特性論證其模型不會構成系統性風險。委員會將根據提交的論據以及模型的具體特性和能力審查每項論證,並決定接受或拒絕。如果委員會拒絕開發者的論證,該 GPAI 模型將被指定為構成系統性風險,並需要遵守進一步的義務,例如提供有關模型的技術文件,包括其訓練和測試過程及其評估結果。
GPAI 模型的義務將從 2025 年 8 月開始執行。
🤗 參與其中
歐盟《人工智慧法案》的許多實際應用內容仍在透過公共諮詢和工作組的形式進行開發,其結果將決定如何使法案的條款更加便於中小企業 (SMEs) 和研究人員實現合規。如果你對這些過程的具體實施有興趣,現在是一個絕佳的時機參與其中,幫助塑造這一程序!
@misc{eu_ai_act_for_oss_developers,
author = {Bruna Trevelin and Lucie-Aimée Kaffee and Yacine Jernite},
title = {Open Source Developers Guide to the EU AI Act},
booktitle = {Hugging Face Blog},
year = {2024},
url = {},
doi = {}
}
感謝 Anna Tordjmann、Brigitte Tousignant、Chun Te Lee、Irene Solaiman、Clémentine Fourrier、Ann Huang、Benjamin Burtenshaw 和 Florent Daudens 提供的反饋、評論和建議。
英文原文: https://hf.co/blog/eu-ai-act-for-oss-developers
原文作者: Bruna Trevelin, Lucie-Aimée Kaffee, Yacine Jernite
譯者: Adeena