機器之心原創。
大家喜聞樂見的 Tumblr(湯不熱)涼了……
12 月初,美國著名圖片部落格網站 Tumblr 宣佈將全面禁止任何成人內容。新規定將於 12 月 17 日正式施行。這一行為看來是主動在和「網際網路的 30% 流量」說再見,長久混跡 Tumblr 的老司機們送了一首「涼涼」予它。
自 2007 年上線以來,Tumblr 一直以允許 NSFW 內容而聞名(也可能是臭名昭著),這是公司管理層一時的頭腦發熱還是想要「改過自新」了?不論 Tumblr 的意圖如何,想要為社交網路加入稽核機制,過濾色情圖片/視訊是需要投入技術和人力的。
在 Tumblr 的官方通告中,公司 CEO Jeff D’Onofrio 表示,「……(Tumblr) 將採用產業標準的機器監控、不斷加大的人類監控等方式禁止成人內容。」
但是,才「睜開眼睛」的計算機並不那麼完美。」Wired 在近日的一篇文章中稱。許多 Tumblr 使用者在 Twitter 上抱怨其鑑別系統存在許多誤判行為。如據 Wired 文章,奧克拉荷馬大學法學院教授 Sarah Burstein 只是釋出了幾張設計專利圖,就被標記了。文章表示這不僅效率低下,而且傷害了使用者的感情。不少 Tumblr 的使用者失望地湧向推特,《紐約時報》稱這些使用者是「棄船而逃」。
其實在多年前,Tumblr 就面臨著準確識別 NSFW 內容的問題。2013 年,Yahoo 11 億美元收購 Tumblr,4 年後 Verizon 收購雅虎,Tumblr 歸於 Verizon 子公司 Oath,並在不久之後推出了「安全模式」,能在搜尋結果中自動過濾成人內容。
人工智慧雖然可以同時處理大量圖片,但畢竟不是人類,難免會出現一些令人哭笑不得的差錯。特別像 Tumblr 這樣的微部落格平臺,使用者群體複雜,色情與非色情的界限非常難以把握。圖普科技產品運營總監姜澤榮表示,「(這樣的平臺在制定標準時)標準過嚴可能會把攝影作品、藝術作品之類的內容識別為色情內容,傷害使用者體驗;標準過低則會讓平臺上的色情內容繼續氾濫。此外平臺上的內容型別繁多,包含文字、圖片、視訊、直播等,各個型別的內容實時性不一,稽核標準差異大,這無疑都對開發、運營等團隊提出高要求。」
圖普科技是國內較早使用深度學習技術提供影象和視訊內容稽核服務的 AI 創業公司。在平臺色情內容稽核等問題上,圖譜向機器之心解釋了一些問題。
影象鑑黃系統流程是什麼?
鑑黃系統的工作流程是這樣的:首先是要建模,其次是制定色情圖片的分類標準,然後收集大量素材,進行分類標註,最後用這些標註好的素材進行訓練,讓機器去學習各個分類裡面的特徵,不斷調整自己模型的引數並最終得到最佳的識別模型。
而當機器對影象進行識別以後,這些影象資料會轉化為數字化的資訊,帶入到模型裡面進行計算, 根據計算值將圖片標註為「正常、性感、色情」三個類別。
因為「識別」的不完美性,這樣的系統也會有人類的參與。在經過識別之後,系統把判斷結果和概率告訴使用方,使用方會再根據結果做對應處理,比如自動刪除、或者人工接入複審。如果在人工複核環節發現機器識別有誤,則會有針對性地對相同場景的圖片進行資料學習, 並調整引數, 直到錯誤率達到最低值。
AI 鑑黃的技術核心是深度學習理論(Deep Learning)。通俗來講,可以把深度學習理解為一個空白的大腦,海量資料就是灌輸進來的經驗。當我們把大量的色情、性感、正常的樣本的屬性告訴深度學習的引擎,讓引擎不斷學習,然後把他們做對的進行獎勵,做錯的就懲罰,當然這些獎勵和懲罰都是數學上的,最後空白的腦袋就會學成了一種連線的模型,這種模型就是為了鑑別色情與非色情而生的。
深度學習就是人工神經網路(Artificial Neural Network,以下簡稱 ANN)。要了解 ANN,讓我們先來看看人類的大腦是如何工作的。
上圖表示人理解外界視覺資訊的過程。從視網膜(Retina)出發, 經過低階的 V1 區提取邊緣特徵,到 V2 區的基本形狀或目標的區域性,再到高層的整個目標(如判定為一張人臉),以及到更高層的 PFC(前額葉皮層)進行分類判斷等。也就是說高層的特徵是低層特徵的組合,從低層到高層的特徵表達越來越抽象和概念化,也即越來越能表現語義或者意圖。
深度學習恰恰就是通過組合低層特徵形成更加抽象的高層特徵(或屬性類別),然後在這些低層次表達的基礎上通過線性或者非線性組合,來獲得一個高層次的表達。此外,不僅影象存在這個規律,聲音也是類似的。
現在來看深度學習的簡易模型。
深度學習的一個主要優勢在於可以利用海量訓練資料(即大資料),在學習的過程中不斷提高識別精度,但是仍然對計算量有很高的要求。而近年來,得益於計算機速度的提升、大規模叢集技術的興起、GPU 的應用以及眾多優化演算法的出現,耗時數月的訓練過程可縮短為數天甚至數小時,深度學習才逐漸可用於工業化。
對於開發團隊來說,做該領域的產品困難在於如何獲取大規模已標註資料、整合有 GPU 的計算叢集以及針對自己的專案調引數,團隊需要不斷地輸入新資料,持續迭代以提高機器識別準確率。
既有圖片又有視訊怎麼辦?
在短視訊流行的今天,各家科技公司還要面對海量的視訊內容。圖片是靜態的,視訊/直播是動態的,而視訊內容的完整稽核包括對圖片、文字、語音的稽核,所以會更加複雜。以對視訊圖片稽核為例,在鑑別視訊和直播時,可以先把動態的內容解碼成圖片幀,這就與靜態圖片鑑別方法相似了。
直播實時性強,對響應時間要求高,並且裡面的場景和人物變化比較大,稽核要求比較嚴格,所以識別難度會相對比較大,需要實時不斷對房間進行截幀傳輸識別,並且結合人工來實現預警處理;視訊在畫質整體上比圖片和直播差,一定程度會影響識別效果,通常是以視訊為單位進行等時間間隔截圖,以一個視訊多張截圖的結果來綜合判斷視訊是否色情違規。
如果企業對視訊或直播的每一幀圖片都進行識別,資料量將變得非常巨大,運營成本會很高。面對這類情況,一般會採用對視訊抽幀的方式進行處理。例如,一分鐘視訊,可以按照時間段來抽取 6-15 幀左右的圖片進行識別處理,以此減少計算成本。
稽核能否完全依賴機器?
針對人們屢屢吐槽的「誤殺」問題,圖譜認為在提高 AI 演算法準確度的同時目前還需依靠人類做最後的判斷。誤判分為兩大型別:把色情內容誤判為正常內容,以及把正常內容誤判為色情內容。
1)色情判正常:在光線昏暗場景,或者距離很遠時背景干擾比較大的場景下,以及有特效干擾的情況都有可能造成誤判;衣著正常但實際上露點、隱晦的動作和姿勢等。
2)正常判色情:穿著暴露但實際沒露點,物體形似性器官,接近於色情動作但實際不是(譬如手抓棍狀物體、手正常放在敏感部位)等。
機器能夠幫助企業大幅提升稽核效率和準確率。以圖普科技的鑑黃系統為例,每天可稽核近 10 億張圖片,識別準確率高於 99.5%,可為企業節省 95% 以上的稽核人力。但在現階段甚至很長一段時間內,人工智慧鑑黃無法完全代替人工鑑黃。因為機器還很難理解內容背後的深意,也不會在不同文化場景中做自由切換。所以推薦以機器+人工的稽核方法。
單純的演算法和模型是可以把機器訓練到完全正確地判斷情況的,但是在實際應用中,機器沒有自主思考和自己的主觀意識,仍然需要人工輔助進行確認。例如客戶提供的畫面過於模糊或者說光線過暗,以及訓練資料的不能完全覆蓋性等種種客觀原因影響下,機器打不出很高的分確認圖片,這都需要人工來輔助。
看來,AI 影象識別系統可以用現有的,「鑑黃師」則非請不可。在宣佈禁止成人內容之後,Tumblr 的 app 終於再次出現在蘋果應用商店裡。這輛車最終會開向何處?讓我們拭目以待。