AIGC內容風控解決方案

遊資網發表於2023-05-11
2023年,註定是AIGC發展的關鍵一年,它標誌著人工智慧逐漸從學術研究走向產業化,並與商業融合形成互為支點的發展格局,進入產業商用期。

技術無罪,商用卻有風險。不少AIGC平臺在上線後僅僅幾天時間內就頻頻遭遇翻車。究其背後,是國家對人工智慧技術發展的引導和規範體現。

4月11日,國家網際網路資訊辦公室公佈了《生成式人工智慧服務管理辦法(徵求意見稿)》(以下簡稱辦法)。這代表著,國內即將迎來首個AIGC新規。其中,在《辦法》的21條政策中釋放出了一條的關鍵訊號,國家支援AIGC的健康發展和商業應用,前提必須是合法合規,且有13條規定都明確指向了”AIGC 提供商“。

在此背景下,網易易盾從AIGC提供商運營角度出發,結合國家政策與豐富的行業經驗,提供覆蓋事前—平臺運營前置的風險、事中—平臺內容合規風險、事後—投訴與違規處理風險的全流程解決方案。

一、事前—平臺運營前置風險

1. AI演算法治理

從演算法治理角度出發,AIGC提供商有責任在平臺投入使用前對可能產生的問題進行預估、判定並制定相對應的措施,對演算法使用過程中的安全監測、演算法評估以及演算法推薦對個人資訊主體帶來的影響等內容進行規範。

同時,《辦法》中明確規定,AIGC服務及生成內容必須“符合社會主義的價值觀”,防止出現民族、信仰等歧視、尊重商業道德、尊重他人合法權益、“防止生成虛假資訊”等意識形態與價值傾向問題。

因此,人工智慧服務提供者應當對生成式人工智慧產品的預訓練資料、最佳化訓練資料來源的合法性負責,提供預訓練和最佳化訓練資料的來源等描述,人工標註規則,人工標註資料的規模和型別等必要資訊。

由於大模型依賴訓練資料,在資料輸入層面可能會存在惡意操縱的風險,包括有毒輸入、偏見、意識形態攻擊、輿論操控、虛假資訊、隱私洩露等。因此,模型訓練語料庫基本決定AIGC生成內容的價值觀。資料標註是AI資料訓練流程中的“關鍵一步”,純淨、貼合AI應用場景的資料來源可解決資料訓練中90%的問題。

對此,易盾可對模型訓練語料庫提供人工標註服務。易盾擁有頭部企業海量資料的標註經驗,可快速、準確地提供專業人工標註服務,涵蓋文字、圖片、音影片及特殊場景和人物,同時對激增資料量可建立應急響應流程,為模型訓練提供貼合使用場景的高質量資料。

AIGC內容風控解決方案

2. 安全管理制度

使用者認證管理

AIGC提供商需提供涵蓋使用者認證、重點群體保護和演算法透明服務。按照《中華人民共和國網路安全法》規定,提供生成式人工智慧服務應當要求使用者提供真實身份資訊。

在強化資訊認證能力方面,易盾提供多種身份驗證方式,靈活組合;創新演算法能力,有效應對AI技術合成人臉、3D面具等假體攻擊;同時在登入註冊或使用AIGC服務前整合呼叫資訊認證能力,減少惡意註冊的安全風險。

技術安全評估

《網際網路資訊服務深度合成管理規定》第二十條 深度合成服務提供者開發上線具有輿論屬性或者社會動員能力的新產品、新應用、新功能的,應當按照國家有關規定開展安全評估。

易盾可協助AIGC提供商建立健全AIGC相關的安全管理制度及業務技術資料的支援,協助企業進行現場迎檢,包括檔案準備,人員訪談,技術檢測,問題記錄,問題整改。

服務演算法備案

AIGC提供商應按照《網際網路資訊服務演算法推薦管理規定》履行演算法備案和變更、登出備案手續。易盾可提供演算法備案諮詢全流程服務,協助企業完成備案資訊填報。

二、事中—平臺內容合規風險

1.AI實時互動內容稽核

為了遵守法律法規和體現社會主義核心價值觀,對於實時互動內容稽核和利用AI生成內容,需要加強敏感內容稽核,例如涉政、涉黃、涉暴等內容,以確保資訊的安全和合規性。然而,特殊的prompt指令可能會繞過AI自身的安全機制,增加稽核的難度和複雜度。

為了解決這個問題,網易易盾提供了針對AIGC+UGC場景下的機器稽核能力,可根據業務場景配置稽核的鬆緊程度,選擇適當的稽核策略來滿足不同場景的合規要求。

如在語聊對話場景中,存在真實使用者和智慧機器人兩種角色,這要求機審能夠快速識別不良資訊,確保人機聊天的實時性。易盾的機審技術可根據業務場景不同,在UGC內容和AIGC生成內容配置不同的鬆緊度稽核策略,兼顧使用者使用體驗和內容安全合規性。

AIGC內容風控解決方案

2.上下文關聯分析+人審

AI生成內容由於演算法機制原因,存在使用者利用敏感話題、循序誘導提問等方式輸出不當AIGC內容的情況,特別是包含多條上下文內容,單詞條閱讀沒有問題,關聯上下文多詞條閱讀會有違法違規的資訊,違法人員常借用藏頭詩、情景劇本、歌詞等形式生成長文字(長圖)分享,來躲避平臺的審查機制。

網易易盾自主研發AI語義分析技術,提供AI機審上下文關聯能力;並結合人工稽核,對AI生成的長圖分享、記憶薄等內容進行關聯檢測分析。另外易盾自主研發的人工稽核系統能還原真實對話場景,區分AI機器人與真實使用者的會話,大幅提高稽核精準度及稽核效率,有效識別和防範使用者利用敏感話題、循序誘導提問等方式輸出不當資訊。

AIGC內容風控解決方案

3.AI偽造內容識別

由於Deepfake等技術的濫用可能會導致嚴重的詐騙和欺詐行為,因此需要採取措施來打擊AI濫用行為。易盾基於深度偽造識別演算法,打造了動態防禦機制,可以識別由AI生成的影片或音訊。這種技術可以識別Deepfake等虛假資訊,從而保護社交網路和其他線上平臺的使用者免受欺詐和詐騙的侵害。

根據《網際網路資訊服務深度合成管理規定》對於由AI生成的圖片、影片等內容需要進行標識,以確保資訊的真實性和準確性,避免虛假資訊的傳播造成不良影響。網易易盾建議平臺提供深度合成內容的顯著標識功能,使用者在創作AIGC內容的時候可以自行完成顯著標識的標記操作。標識AI生成的內容,以及採取防禦措施來打擊AI濫用行為,是確保網際網路資訊保安的重要措施。

AIGC內容風控解決方案

三、事後—投訴與違規處理風險

網易易盾可協助使用者建立投訴接管機制,建議平臺提供使用者投訴舉報渠道,鼓勵使用者參與平臺內容治理,易盾智慧稽核系統也將提供使用者投訴舉報稽核機制,打通機器稽核和平臺業務介面,及時對使用者投訴舉報內容進行稽核處置。

AIGC大大降低了創作門檻,為資訊生產和傳播帶來了新的變革和機遇。對於AIGC提供商而言,與機遇並存更多的風險與挑戰。

新技術與新行業的發展往往與政策合規相輔相成,如何在合規的基礎上穩步實現應用落地、推進產品迭代,是AIGC提供商入局後繞不開的一點。作為新一代數字內容風控服務商,網易易盾將幫助AIGC平臺合規發展,為新行業的可持續發展持續做貢獻。

來源:網易易盾

相關文章