YouTube和今日頭條很委屈:色情暴力的鍋推薦系統該不該背?

AI前線發表於2019-03-04

本文由 「AI前線」原創,原文連結:YouTube和今日頭條很委屈:色情暴力的鍋推薦系統該不該背?
作者|Vincent,Debra Chen
編輯|Emily

AI 前線導讀:”YouTube 的“艾莎門”(Elsagate)事件讓隱藏在視訊網站裡的“兒童邪典視訊”問題得到曝光,國內外各大視訊網站對自家網站的同類視訊進行了清理整改。家長們除了憤怒之外,還向這些網站提出了質問:為什麼我的孩子會收到這些視訊的推薦?

推薦系統,人工智慧技術落地最為廣泛的技術之一,在這一段時間成為了眾矢之的,不僅是視訊網站,不少新聞網站或 App 比如今日頭條,也被發現向使用者推薦低俗化內容的問題。而以技術聞名世界的 Facebook 也被曝出有假新聞推薦的問題。

於是問題來了:推薦系統到底該不該被這個巨大的“黑鍋”,或者說,這些問題的出現真的全都是技術的錯嗎?”

t.cn/RE5zhWm (二維碼自動識別)

(推薦一個推薦系統專欄,掃碼微信訂閱,現在註冊立享 30 元新人紅包)

事件回顧

YouTube Elsagate 事件

YouTube和今日頭條很委屈:色情暴力的鍋推薦系統該不該背?

先來回顧一下幾個月前沸沸揚揚的這場“艾莎門”事件吧。

2017 年 12 月,YouTube 上的 Elsagate 門引起了輿論的巨大轟動和公眾的集體討伐。事實上,Elsagate 並不是近期才有的事件,早在 2016 年就有機構或公司將凶殺、綁架、懷孕、注射、互相毆打、血腥、暴力等不宜兒童觀看內容以 Elsa、蜘蛛俠、米老鼠等卡通形象,錄製成動畫或真人演出,並上傳至 YouTube。引發這次事件的視訊內容讓人震驚,尤其是有孩子的父母。

從推薦演算法機制來看:典型的推薦系統通常由挖掘、召回、排序三部分構成漏斗模型,在理想狀態下,經過這三層漏斗的層層過濾,最終經過殘酷 PK 留下來的資訊應該是比較純淨、優質的資訊。然而,推薦系統往往是不完善的,在這三層過濾網的任何一個環節都有可能出現問題,被一些利益團體惡意利用,謀取利益。

用 YouTube 簽約演算法訓練工程師的話來講,這家全球最大的網際網路視訊平臺內容的評價機制可以用“讓人疑惑”和“不完善“兩個詞來形容。雖然 Google Brain 演算法讓 YouTube 視訊播放量成功提升了 20 倍,但 Elsagate 卻正是利用了 YouTube 推薦演算法的漏洞才達到了目的。簡單來說,YouTube 推薦演算法包含兩個神經網路,第一個是生成候選集,它以使用者的觀看歷史作為輸入,使用協同過濾演算法在數以百計的視訊中進行選擇;第二個神經網路用於對這幾百個視訊進行排序。該系統使用邏輯迴歸計算每個視訊的得分,然後不斷地使用 A/B 測試進行改進。

利用 YouTube 演算法的這些特徵,這些視訊背後的利益既得者 Elsagate通過為大量動漫角色的名字和打上搞笑、兒童等標籤,讓演算法自動判定其為兒童視訊,並出現在推薦排序的前幾名,兒童只要點進一個,網站就會推薦同型別的視訊一個接一個地播放。另外,由於演算法在挖掘階段物料處理能力、召回階段的馬太效應、排序階段的唯轉換率論,導致大量 Elsagate 視訊搭乘上演算法的快車,輕而易舉地登上 YouTube 熱門視訊,讓無監督的兒童成為受害者。

今日頭條數次被“請喝茶”

2017 年,頭條因內容低俗化和侵犯公眾隱私成為輿論批評的眾矢之的。

YouTube和今日頭條很委屈:色情暴力的鍋推薦系統該不該背?

對於引起公眾恐慌的“麥克風事件“,今日頭條表示,從技術上看,目前聲音資訊的處理,也遠達不到通過麥克風去獲取個人隱私的水平,“今日頭條使用者資訊的積累,完全是通過使用者在今日頭條上的點選等資料行為所產生的。”

雖然頭條發出了宣告,但使用者仍然心有餘悸,並對解釋存疑。在百度帖吧、知乎、微博等社交平臺上,有不少網友反映自己的講話內容與頭條推薦資訊實現匹配的帖子,甚至在淘寶、微信群裡說話的內容都會在第二天收到匹配的推薦。

事實上,今日頭條已經不是第一次收到政府“請喝茶”的邀請函了。2017 年 12 月 29 日,今日頭條因持續傳播色情低俗資訊、違規提供網際網路新聞資訊服務等問題,多個頻道被關停 24 小時。頭條被質疑通過演算法等技術手段向使用者推薦那些容易獲得流量的色情低俗類資訊,從而謀取廣告收益。

而今年春晚之前,本來準備大幹一場的今日頭條旗下兩款產品——“火山小視訊”、“抖音”,也遭遇了春晚冠名被多家衛視臨時撤下的尷尬窘境。

早在去年 6 月,北京市網信辦下令關閉頭條上的十幾個賬號,要求其和其他新聞入口網站遏制明星醜聞報導,“積極傳播社會主義核心價值觀,營造健康向上主流輿論環境”。

2017 年 9 月,《人民日報》發表一系列評論文章,嚴厲批評今日頭條等基於人工智慧的新聞應用傳播錯誤資訊和膚淺內容。

作為回應今日頭條 App 的母公司北京位元組跳動科技有限公司登出或暫停了 1100 多個部落格賬戶,聲稱那些部落格在該應用程式上釋出了“低俗內容”。它還用一個名為“新時代”的新版塊取代了“社會”版塊,新版塊裡有大量官方媒體對政府決策的報導。

無獨有偶,國內最大的自媒體平臺微博的熱搜板塊也被下架整改,熱門部分增加“新時代”板塊。

Facebook 廣告模式支援假新聞

另據福克斯新聞報導,曾擔任社交網路隱私和公共政策顧問的 Dipayan Ghosh 表示,干涉美國大選和英國退歐事件的那種假情報與 Facebook 作為廣告平臺的性質密切相關。Ghosh 和他的合著者 Ben Scott 在“新美國基金會”發表的報告中寫道:“政治虛假資訊成功傳播是因為它遵循了基本的商業邏輯,有人會從產品中受益,並且讓更廣泛的數字廣告市場策略變得更加完善。”

2017 年,在美國大選後不久,因為 Facebook 虛假資訊事件的影響,Ghosh 離開了 Facebook。 在新的報告中,他和 Scott 認為,只要一個社交網路的核心業務模式受到廣告、演算法和使用者關注的影響,試圖對平臺進行調整的嘗試就註定要失敗。

Facebook 使用者眾多,假新聞的問題幾乎可以影響到全球所有使用社交媒體的使用者,造成的負面影響到全球大多數人。

Facebook 使用了一套與眾不同的演算法,稱為 EdgeRank 演算法。它的 news feed 演算法和谷歌的搜尋引擎演算法、Netflix 的推薦演算法都是分散式的複雜演算法,包涵很多小的演算法。

從最初依靠主觀拍腦袋的“刀耕火種”時代,Facebook 一路經過收購 FriendFeed 並將其點讚的功能合併進來,到如今演算法已經經過無數迭代,但總的路線——興趣 feed 一直保持不變。Facebook 和它的新聞流演算法經過 EdgeRank 演算法的訓練,向使用者展示愛看的內容。

由於 Facebook 在資訊傳播中的角色已經發生了變化,成為實際上的內容分發中介,相應地大家認為其應該擔負起識別資訊真實性的責任。假新聞事件不斷髮酵後,公司陸續推出一系列措施打擊假新聞,包括簡化使用者舉報虛假資訊的流程、通過第三方事實核查機構對有爭議的內容做標記等。2017 年上線了“爭議標籤”功能,即使用者對具有爭議的新聞打上舉報標籤,如下圖所示:

YouTube和今日頭條很委屈:色情暴力的鍋推薦系統該不該背?

不久前,Facebook 宣佈調整首頁資訊流的演算法規則,將新聞在資訊流中的比例從目前的 5% 下降至 4%。

然而,這樣的方法起到的效果還是十分有限,因為後續 Facebook 又發生了數次假新聞事件,也正如但華爾街時報指出的那樣,Facebook 調整資訊流每年幾乎是例行公事,起到的效果有限,每一次嚴重依賴 Facebook 平臺的出版商都會強勢反彈。

問題出在哪兒?

這一系列的事件都把矛頭指向了推薦系統,但是推薦系統技術真的錯了嗎?

關於低俗內容被推薦這回事,顯然不是直接給推薦系統的開發方扣上一個帽子就完事那麼簡單。一篇內容從生產到被人消費(閱讀)都大致有這麼個鏈條:創作,釋出,抓取,分發,點選,閱讀。

六個環節,是三波人在參與:創作和釋出是一撥人,內容生產者;抓取和分發是第二波人,很多都用上了推薦引擎;第三波進行點選和閱讀就是內容消費者。現在討伐的是低俗內容被人看到,顯然只討伐中間的推薦引擎是不合適的,當然不討伐也是不可能的,三波人都脫不了干係。

如果推薦引擎沒有人工干預的痕跡,那麼一條低俗垃圾內容被推送到使用者首頁,最有可能的原因就是:它真的很受歡迎,因為使用者行為是推薦系統最倚重的資料。在這種情況下,除了平臺自查,人工干預之外,在技術上,可以嘗試做這些事:

  • 在內容分析上,利用人工篩查的資料做樣本,訓練一些識別模型,可以把低俗垃圾內容再細分一下,分別訓練不同的識別模型,輔助人工做快速篩查;
  • 在內容抓取上,控制抓取源頭的質量,避開低俗垃圾內容的重災區;
  • 在推薦分發上,從純粹的資料驅動轉變到資料啟示,推薦演算法的優化目標從單一目標轉到多目標優化,除了考慮效果指標,還考慮內容多樣性。在使用者行為的使用上,也要有所甄別,考慮使用者價值。在熱門內容的使用上,有所甄別和有所剋制,採用一些類別的熱門內容或者採用某些優質使用者圈子的熱門內容,而非全域性熱門內容。等等。

無論哪家內容分發平臺,他們都不願意看到被低俗垃圾內容佔據,畢竟既影響品牌形象,又有一些運營風險,但在一些利益驅動下會一直有人以身試法,所以這是一個永不停止的攻防過程,沒有結束的那一天。

對於“艾莎門”這樣的情況和資訊流中的低俗垃圾內容氾濫一樣,如果要用技術手段予以打擊,那麼重點還是在對內容本身的深度挖掘和識別上。“艾莎門”的難度在於,它在形式上(堆砌關鍵詞、模仿動畫片角色)做足了功課,但是在劇情上有非常強烈的暗示、色情、暴力、虐待等。

AI 前線瞭解到,從技術手段上還是可以利用人工標註、機器學習來識別一部分違規內容,“艾莎門”有兩個特點倒是可以在訓練模型時重點考慮,一個是非常強烈的色彩,可以說辣眼睛了,還有就是常常伴隨尖叫和哭聲,這些在正常的兒童視訊中都是不正常的。但歸根結底,這必須得靠人和機器協同才能見效卓著。

從多個角度看,網路上出現的這些垃圾資訊推薦的問題都和推薦演算法沒有直接關係,這些東西都是在資料內容分析演算法上需要改進。推薦演算法關注的是滿足使用者興趣,探明興趣後推薦相應的東西,顯然對假訊息、低俗垃圾這類內容的遏制打擊不應該重點在這個過程中做,而應該在源頭上做。

影響推薦系統質量的因素

推薦系統能夠開出這麼多“惡之花”,就說明目前仍有很多難題亟待解決。 AI 前線為此採訪到了推薦系統的技術專家——鏈家網資深演算法專家刑無刀(陳開江),他認為,推薦系統目前最大的難題有這樣兩個:第一個是冷啟動問題,第二個是探索和利用問題。

冷啟動的解決方法主要還是想辦法引入更多的第三方資料,讓冷變熱;純技術手段解決的話,一般是強化學習,簡單點就是多臂老虎機,但光靠技術手段解決冷啟動有點不現實,一般要配合各種運營手段,有點“寓教於樂”的意思。

第二個問題就是探索利用問題,有時候也叫作 EE 問題。現在一切媒體會稱之為資訊繭房,意思就是越推越窄。究其原因,推薦演算法在使用者物品關係矩陣中攫取有效資訊反過來填充這個矩陣,這是一個正向自我強化過程,越走越窄是宿命。這也就是在探測到使用者興趣後,只是開採利用,而不發現新的使用者興趣。可以說沒有推薦系統能夠避免這個歸宿。如果只有開採利用,則推薦系統是一個封閉系統,封閉系統永恆熵增,無一例外都要走向冷寂,表現在推薦系統上就是,說不上你推得不好,但就是不再想看了。唯一的辦法就是不要讓推薦系統變成封閉系統,需要不斷引入與外部的資訊交換,比如不依賴使用者興趣,以隨機的方式推薦,比如引入外部其他產品中的資料,等等。

除了演算法本身的缺陷外,還有很多影響推薦內容質量的因素,如稽核機制、使用者因素、資料因素、演算法策略因素、工程架構因素等都會對推薦效果產生影響。以 YouTube 的稽核機制為例,我們來看看稽核機制會對內容推薦產生多大的影響。

據外媒 BuzzFeed News 報導,他們所掌握的 YouTube 視訊稽核大綱和對 10 名現任和前“評級員”的採訪透露出,YouTube 的簽約搜尋演算法工程師表示 YouTube 系統中存在缺陷,這些所謂的“guidelines”也多有互相矛盾之處,他們推薦“高質量”視訊的依據更多的是基於“產品價值”,而不管視訊內容是否會引起不同年齡階段使用者的不適。這不僅導致成千上萬的 Elsagate 視訊在網路上傳播,而且還在演算法上讓這些視訊更容易被人搜尋到。

評級員稱,在過去的 10 年多時間裡,他們接受了 100 多項評估設計兒童的視訊是否安全的任務。“僅一天時間我就做了 50 多項關於兒童的視訊,時長約 7 小時。”一名評級員說道。“然而這些視訊都不是應該給孩子看的,作為父母,我對這點感到很憤怒。”這些視訊雖說是動畫片,但是卻包含大量粗話、葷段子、傷害他人和性相關的內容。當孩子在無監督的情況下看到這些視訊的時候,這真的是一件可怕的事。

YouTube和今日頭條很委屈:色情暴力的鍋推薦系統該不該背?

據這些評級員無權決定 YouTube 上的視訊的搜尋結果排位,視訊內容是否違背 guidelines,以及刪除進行對觀看觀眾進行年齡限制,判定為非法廣告等,因為這些內容干預的權力落在 Google 和 YouTube 其他小組的手裡。

在經歷過這次風波之後,YouTube CEO Susan Wojcicki 站出來聲稱將加強平臺的人工稽核力度,2018 年稽核工作人員將增加至 1 萬名,YouTube 的評級員最近也被授予判定視訊內容的權力,9-12 歲兒童在無監督的情況下看到 的內容只有在父母認為無害的情況下才可以過審。

加強稽核制度的效果我們不得而知,但經驗告訴我們,稽核機制中的人工因素不可或缺。

好的推薦系統應該是什麼樣的?

那麼從演算法、資料、架構、產品形態等方面,如何設計一個更好的推薦系統?什麼樣的推薦系統是“好”的推薦系統?

先來看一組好的推薦系統帶來好處的例子。

據亞馬遜財報顯示,該公司在第二財季銷售額增長 29%至 128.3 億美元,高於去年同期的 99 億美元。這種增長可以說與亞馬遜將推薦系統應用到從產品發掘到結賬的整個採購流程幾乎每一個環節中的方式有很大關係。

今日頭條每年增加一億的使用者量,YouTube 結合 Google brain 推薦演算法,觀看時長每年都增長了 50%,推薦系統均功不可沒。

以上僅是少數推薦演算法為我們帶來便利和好處的其中少數案例,還有很多其他的應用給使用者體驗帶來提升也是客觀存在的事實。

受訪專家 刑無刀 認為:“好的系統都不是設計出來的,都是進化出來的,很難說設計一個更好的推薦系統。推薦系統終歸是為產品體驗服務的,還是迴歸本質,優化推薦系統沒有什麼標準手冊,每天去體驗自己的產品,去看資料,去洞察資料,而不是唯資料是從。”

AI 前線還了解到,深度學習在推薦系統中已經有了很多應用,典型的有:內容的表達學習、embedding;RNN 用於序列推薦;還有更多的就是代替傳統的單用線性模型的融合排序上,比如 Wide&Deep 模型。這些應用都可以用來增強推薦系統的功能,優化推薦系統的體驗。

反思:利益和社會權益之間的權衡

天下熙熙皆為利來,天下攘攘皆為利往,這句真理歷經千年在所有時間所有地點仍然適用,利益的驅使讓很多平臺丟了節操。

難道所有團隊都像某些平臺一樣沒節操嗎,總有堅守正確價值觀的平臺吧?這個問題我們不敢妄下定論,但從目前各大平臺曝光的情況來看,以上所提到的各大平臺,如國外的 Facebook、YouTube、谷歌等,其對違背社會道德和價值觀內容的放縱,以及有引導性的搜尋結果,讓人不得不懷疑是背後的利益價值鏈在驅使著他們做出這樣的選擇。

在國內,最大的自媒體平臺今日頭條、微博等平臺也遭到相關部門的介入整改,大平臺尚且如此,可以想像還有多少被業內預設的潛規則在悄悄發揮著作用,讓人不得不懷疑每天我們看到的資訊背後隱藏著多少的利益鏈,也讓人們思考使用者如何才能擺脫“被消費”的窘境。然而,這些措施雖然可以遏制一部分違背社會價值的內容在平臺上出現,但卻仍會一夜之間冒出更多。

“這背後是整個內容分發平臺普遍存在的‘價值失調’問題所引起的。”Selman 說道,“這是關於企業利益與社會利益之間的矛盾。”當企業利益於社會利益產生不可調和的矛盾時,監管的介入和企業的責任感,都是還使用者一片淨土的關鍵點。

總之,不僅是我們今天討論的推薦演算法這個話題,所有技術上的進步都會有“惡魔”的一面,但畢竟它們的本質只是工具,和一把手術刀一樣,它可以用來殺人也可以救人,它究竟能起到什麼作用,對社會是否有益還取決於使用它的人是仁醫還是殺人惡魔,以及使用它的目的。

參考文章:

[1]www.foxnews.com/tech/2018/0…

[2]www.wired.com/story/dont-…

[3]www.cnet.com/news/youtub…

[4]www.buzzfeed.com/daveyalba/y…

[5]qz.com/1194566/goo…

如何從零開始快速搭建一個推薦系統?我們的被採訪嘉賓刑無刀老師有一套課程推薦:

作者介紹

刑無刀,本名陳開江,現在是鏈家網資深演算法專家,從事演算法類產品的研發。曾任新浪微博資深演算法工程師,考拉 FM 演算法主管。從業 8 年時間,刑無刀的工作和研究範圍始終沒有超出推薦系統。

這些年,刑無刀曾服務過創業公司、傳統大公司和大型網際網路公司,這些經歷也讓他見證了大大小小、形狀各異的推薦系統的構建過程。又因為他基本都從 0 到 1 參與了這些公司的推薦系統,所以也清楚這中間都有哪些坑。

更多幹貨內容,可關注AI前線,ID:ai-front,後臺回覆「AI」、「TF」、「大資料」可獲得《AI前線》系列PDF迷你書和技能圖譜。

相關文章