大模型演算法辦備案全網最詳細說明(+附件)

ikkiikki發表於2024-05-30


已成功備案產品(近130家,不包括稽核中的)

一、大模型演算法備案的強制性
二、生成式人工智慧(大語言模型)安全評估要點
三、大模型備案必備材料+重點說明
四、大模型備案填報流程
五、大模型備案時間成本對比
六、備案建議
附錄、過程性材料

關於備案諮詢

不論最終是找我們做備案,還是自己做備案,在備案過程中有任何不清楚的問題都可以問我們,我們都樂於答疑~

一、大模型演算法備案的強制性
1、強制要求備案
(1)《辦法》第六條規定:利用生成式人工智慧產品向公眾提供服務前,應當按照《具有輿論屬性或社會動員能力的網際網路資訊服務安全評估規定》向國家網信部門申報安全評估,並按照《網際網路資訊服務演算法推薦管理規定》履行演算法備案和變更、登出備案手續。
(2)根據《演算法推薦規定》第三十一條規定:演算法推薦服務提供者違反該規定第二十四條,不履行或未按時履行演算法備案義務的,應承擔如下法律責任:警告、通報批評;罰款;刑事責任等(簡化版)。

2、強制實現
(1)根據《演算法推薦規定》第三十三條規定:具有輿論屬性或者社會動員能力的演算法推薦服務提供者透過隱瞞有關情況、提供虛假材料等不正當手段取得備案的,予以撤銷備案,關閉網站、吊銷相關業務許可證或吊銷營業執照等處罰。
(2)演算法備案不是審查制度,是透過事前手段對演算法產品加強管理的方式,演算法產品透過備案不意味著監管部門認可實質內容。在演算法應用過程中,使用者可以透過公開渠道查詢到演算法產品的備案資訊,若發現網際網路服務提供者實際提供的服務與其備案內容不符,可向監管部門投訴、舉報。

二、生成式人工智慧(大語言模型)安全評估要點
1、語料安全評估
(一)評估內容
(1)文字訓練語料規模
訓練語料儲存規模,按文字格式儲存時的語料大小。
訓練語料數量,按詞元 (Token) 計數。
(2)各型別語料規模
訓練語料中的中文文字、英文文字、程式碼、圖片、音訊、
影片及其他語料的規模。
(3)訓練語料來源
訓練語料來源的組成情況,按照開源語料、自採語料、商業語料進行分類。
境外開源網站語料內中文文字、英文文字、程式碼、圖片、音訊、影片及其他語料的規模。
自採語料內中文文字、英文文字、程式碼、圖片、音訊、影片及其他語料的規模。
商業語料內中文文字、英文文字、程式碼、圖片、音訊、影片及其他語料的規模。
(4)語料標註數量
語料標註的數量,僅限文字和圖片,按標註單元計數,
通常按條數、張數。
(5)標註人員情況
標註人員的數量,標註人員的型別,通常包括內部、外包。
標註人員培訓時間、培訓數量等情況。
(6)標註規則
按照《生成式人工智慧服務管理暫行辦法》第四條要求制定的標註規則。
(7)標註內容準確性核驗
標註內容準確性人工核驗比例。
(8)語料合法性
語料來源合法性情況。
語料是否包含侵害他人智慧財產權內容。
語料是否包含違法違規的個人資訊內容。
(二)評估結論
評估結論應包括以下內容:
(1)語料是否符合《生成式人工智慧服務管理暫行辦法》相關規定,是否含有違反我國法律法規明確禁止的內容。
(2)語料中包含個人資訊語料的數量、種類,是否符合《生成式人工智慧服務管理暫行辦法》規定。
(3)因語料產生智慧財產權糾紛的風險分析。
(4)防範語料安全風險的措施和建議。
2、模型安全評估
(1)語料內容評估
採用人工抽檢,說明抽檢數量與合格率。
採用關鍵詞抽檢,說明抽檢數量與合格率。
採用分類模型抽檢,說明抽檢數量與合格率。
(2)生成內容評估
採用人工抽檢,說明抽檢數量與合格率。
採用關鍵詞抽檢,說明抽檢數量與合格率。
採用分類模型抽檢,說明抽檢數量與合格率。
(3)涉智慧財產權、商業秘密的評估
評估方法、評判標準以及評估結果等。
(4)涉民族、信仰、性別等的評估
評估方法、評判標準以及評估結果等。
(5)涉透明性、準確性、可靠性等的評估
評估方法、評判標準以及評估結果等。
3、 安全措施評估
(1)模型適用人群、場合、用途
服務的適用人群,是否適用未成年人、學生等。
適用場合,是否適用關鍵資訊基礎設施、自動控制、醫療資訊服務、心理諮詢等。
服務範圍,是否限定或未限定特定領域。
(2)服務過程中收集儲存個人資訊情況
服務過程中收集儲存個人資訊情況,包括個人資訊的型別、數量、用途以及儲存期限。
(3)收集個人資訊徵得個人同意情況
收集個人資訊徵得個人同意的方式。
(4)受理處理使用者查閱、複製、更正、補充、刪除個人資訊請求的情況
受理處理的條件以及途徑方法。
(5)圖片、影片標識情況
標識的樣式,按1:1 比例貼入。
標識在圖片、影片中的具體位置。
標識頻度,如每幀、跳幀等。
(6)接受公眾或使用者投訴舉報情況
接受公眾或使用者投訴舉報的途徑及反饋方式。
(7)服務協議情況
上述1至6內容是否已經寫入模型服務協議。
(8)非法內容攔截措施
監看人員的數量。
預置關鍵詞攔截情況,並提供預置關鍵詞攔截列表。
分類模型的檢測情況,說明分類模型研製情況和準確性。
(9)拒答率
拒絕回答或者以簡單模板回答數量佔總測試數量的比率。
(10)模型更新、升級
在何種情況下重新進行預訓練,如較頻繁發現生成非法
三、大模型備案必備材料+參考資料
必備材料清單
《演算法備案承諾書》
《落實演算法安全主體責任基本情況》
《演算法安全自評估報告》
《擬公示內容》
《落實演算法安全主體責任基本情況》,需要50頁左右,《演算法安全自評估報告》 100 頁左右,包含附錄各種證明材料。材料申報難度較高,一方面涉及專業問題非常全面,可能演算法資料人員在實際工作中都未思考過,更不好回答;另一方面對於演算法的詳細描述質量,有較高的要求,非專業人員無法勝任報告的撰寫。
1、《 演算法安全自評估報告》
重點說明,需要明確以下4個點
(1)演算法原理和邏輯
(2)資料來源合規性
(3)演算法透明度和可解釋性
(4)安全漏洞檢測與應對
《演算法安全自評估報告》是整個申報過程中最難和最重要的材料,總共160+種備案關鍵指標需要回答,且所有問題都必須要回答清楚,如果不理解問題表述,需要尋求專業求助,不能刪除問題不回答,更不能隨意回答,回答的詳細程度和準確性決定演算法備案是否透過。
撰寫評估報告的難點主要在於三點:
一是要對演算法進行全面的評估,包括安全性、可靠性、有效性等,同時需要與法務的參與,必須要符合法律法規;
二是資料的合規性,要有資料來源的開源授權協議或相關合作證明,確保資料在使用中符合相關行業法規和標準,避免違規操作;
三是風險預估與應對策略,對各種可能出現的風險進行評估,並進行對應的策略。
2、《落實演算法安全主體責任基本情況》
這個文件的填寫難度較高,需要明確3個重點
(1)如何做好資訊保安監測
(2)如何做好內容安全監測
(3)如何做好使用者個人資訊保安監測
做好以上幾點需要產品、研發演算法、法務團隊的密切配合,材料需要詳細提供企業建立的演算法安全相關組織和制度,但大多數公司還沒有建立演算法制度,網上的資料還少,其中制度又分為了自評估制度、監測制度、應急處置制度和違法違規處置等。
如有不清晰的,可以私信聯絡我,目前我們團隊也對外提供諮詢服務。
3、《xxx大模型演算法”擬公示內容》【公示內容《擬公示內容》】
這部分資訊主要在網頁端的資訊填報環節,這部分包括演算法名稱、演算法基本原理、演算法執行機制、演算法應用場景、演算法目的意圖、演算法公示情況(選填),一般一頁word即可
4、申請公司營業執照副本彩色掃描件;
5、法定代表人身份證彩色掃描件+手機號+電子郵箱;
6、演算法安全負責人身份證彩色掃描件+手機號+電子郵箱+工作證明(如工作證掃描件);
7、聯絡人身份證彩色掃描件+手機號+電子郵箱;法人、安全責任人、聯絡人 分別三人擔任
8、演算法機構設定(主要工作職責、任職要求、配備的規模、保障措施);
參考資料
1、《網際網路資訊服務深度合成管理規定》
2、《網際網路資訊服務演算法推薦管理規定》
3、《生成式人工智慧服務安全基本要求》
補充說明
《落實演算法安全主體責任基本情況》《演算法安全自評估報告》是非常重要並且比較繁瑣的,需要畫出流程圖,描述各個產品研發過程、輸入輸出的演算法原理、範圍、來源、限制,演算法的意圖、演算法的邏輯、使用的技術、資料結構、對資料安全保障和風險防範措施。程式的構造和原理主要包括計算機程式設計語言、演算法設計、編碼、除錯、測試等技術。
如有不清晰的,可以私信聯絡我,目前我們團隊也對外提供諮詢服務。
四、大模型備案填報流程及重難點分析
1、填報入口
登陸網際網路資訊服務演算法備案系統(以下簡稱備案系統)進 行填報,網址為 https://beian.cac.gov.cn
系統首頁如圖 1 所示。

圖 1 備案系統首頁(示意圖)
2、填報流程
填報人員需首先註冊並登陸備案系統,具體步驟可參考該系 統資訊公告中的《網際網路資訊服務演算法備案系統使用手冊》。登 錄後的主頁面如圖 2 所示。

圖 2 主頁面(示意圖)
深度合成備案填報包括三個步驟:一是填報主體資訊;二是填報演算法資訊;三是關聯產品及功能資訊或填報技術服務方式;四是線下稽核。
“深度合成服務提供者”(以下簡稱“服務提供者”)角色 的填報人員需關聯產品及功能資訊,“深度合成服務技術支持者” (以下簡稱“服務技術支持者”)角色的填報人員需填報技術服務方式。其中,“服務提供者”是指提供深度合成服務的組織、 個人;“服務技術支持者”是指為深度合成服務提供技術支援的 組織、個人。填報流程如圖 3 所示。

圖 3 填報流程(示意圖)
(一)主體資訊填報
填報人員可點選主頁的“主體資訊”進行主體資訊填報,按 照備案主體的實際情況如實填寫主體的基本資訊、證件資訊、法定代表人資訊、演算法安全責任人資訊等內容,並下載附件模板,嚴格按照模板要求填寫並上傳《演算法備案承諾書》和《落實演算法安全主體責任基本情況》附件。主體資訊填報頁面如圖 4 所示。

圖 4 主體資訊填報頁面(示意圖)
(二)演算法資訊填報
填報人員可點選主頁的“備案資訊”進行演算法資訊填報。算 法資訊填報包括兩個步驟:一是填寫演算法基礎屬性資訊;二是填寫演算法詳細屬性資訊。
(1)填寫演算法基礎屬性資訊
填報人員需選擇“生成合成(深度合成)”演算法型別,根據實際情況選擇“服務提供者”或“服務技術支持者”填報角色。 填報人員需下載頁面中的模板,按照模板內容填寫並上傳《演算法安全自評估報告》《擬公示內容》等附件。演算法基礎屬性資訊填報頁面如圖 5 所示。

圖 5 演算法基礎屬性資訊填報頁面(示意圖)
(2) 填寫演算法詳細屬性資訊
填報人員可參考當前填報頁面右方的說明文字,根據實際情況填寫演算法資料、演算法模型、演算法策略和演算法風險與防範機制等資訊。填報時,如需中途退出,可點選頁面下方的“儲存至草稿箱”,儲存當前已填寫的內容,便於後續繼續填寫。演算法詳細屬性資訊填報頁面如圖 6 所示。

圖 6 演算法詳細屬性資訊填報頁面(示意圖)
(三)產品及功能資訊或技術服務資訊填報
在關聯產品及功能資訊或填報技術服務方式時,“服務提供者”角色的填報人員需關聯產品及功能資訊,“服務技術支持者” 角色的填報人員需填報技術服務方式。
(1)關聯產品及功能資訊
“服務提供者”角色的填報人員需根據實際情況勾選應用當前備案演算法的產品及功能。需要注意的是,若勾選產品,則表示當前備案演算法應用於該產品下所有功能;若勾選功能訪問路徑,則表示當前備案演算法應用於該路徑下所有功能;若勾選特定功能,則表示當前備案演算法僅應用於被勾選的功能。勾選產品頁面如圖 7 所示。

圖 7 勾選產品頁面(示意圖)
若當前產品及功能資訊不完善,即產品及功能不能覆蓋當前備案演算法的關聯範圍,填報人員可點選該介面下方的“儲存至草 稿箱”按鈕,返回主頁並點選主頁的“產品及功能資訊”完善相應的產品及功能資訊。產品及功能資訊填報頁面如圖 8 所示。

圖 8 產品及功能資訊填報頁面(示意圖)
待產品及功能資訊完善後,演算法備案填報人員可透過草稿箱返回至“備案資訊”頁面繼續進行演算法資訊填報。其中,草稿箱的進入方式有兩種:一是點選主頁右上角使用者暱稱,在下拉選單中選擇“草稿箱”;二是點選主頁“備案資訊”按鈕,從備案資訊介面中進入“草稿箱”。
(2)填報技術服務方式
“服務技術支持者”角色的填報人員需根據實際情況填寫當前備案演算法的技術服務方式資訊,包括技術服務名稱、技術訪問方式、技術服務物件、技術服務頻度等。填報技術服務方式頁面如圖 9 所示。

圖 9 填報技術服務方式頁面(示意圖)
(四)提交備案資訊
演算法備案填報人員在確認填報資訊無誤後,應勾選頁面下方的“我承諾上述填報資訊真實有效”,並點選提交按鈕,完成演算法備案申報。確認資訊頁面如圖 10 所示。

圖 10 確認資訊頁面(示意圖)
五、大模型備案時間成本對比

如有商務合作需要的,可以私信聯絡我,目前我們團隊也對外提供大模型備案諮詢服務。

六、備案建議
1、是否需要專業指導
在詳細瞭解演算法備案申報要求和規則基礎上,可選擇自己做,如果不瞭解,會造成申報材料反覆出錯被打回,增加試錯的時間成本,嚴重延緩獲得備案號的時間。
尋求專業指導,要避免誤區,演算法備案屬於技術型工作,並不屬於法律相關服務。需要尋找有自主備案成功經驗和相關行業背景的機構進行輔導服務。專業的事交給專業的而做,在時間效率上,專業機構無疑會更準確的立即監管要求,從而更好更快的完成演算法備案工作。
2、提升透過率
沒有絕對的透過率高低之分,備案取決於模型和資料是否合規合法,只要申報材料能完整、如實描述,有完整的制度、策略、流程規避安全風險,理論上都是可以透過的。區別在於一次性快速透過,還是多次修改最終透過。

3、關於備案諮詢

不論最終是找我們做備案,還是自己做備案,在備案過程中有任何不清楚的問題都可以問我們,我們都樂於答疑~

附錄、過程性材料

相關文章