持續不斷地推薦兒童不宜視訊背後,YouTube是這樣訓練AI的

微胖發表於2018-01-01

編譯 | 王宇欣 Rik

來源 | BuzzFeed NEWS

本月早些時候,在公眾對 YouTube 可能引起不安的潛在不良內容表達強烈不滿後,YouTube CEO Susan Wojcicki 表示,2018 年公司將把人類審查員的數量增至 10,000 名,以遏制不良內容。

但是,我們從獲得的 YouTube 準則和截圖,以及對 10 位現任及前任「評級員(訓練 YouTube 搜尋演算法的合同工)」的採訪中,發現 YouTube 系統存在不少問題。

這些檔案和訪談,揭露了一個令人難以理解甚至有時自相矛盾的評級準則。

用評級員的話說,準則要求他們主要根據製作品質來推送「高質量」視訊,即使有時候所謂「高質量」視訊內容會引起不安。

這份準則不僅使數以千計可能對兒童產生不良影響的視訊仍然線上,而且還能通過演算法擴大其影響範圍。

評級員告訴 BuzzFeed News,在過去十天左右,他們被分配了超過 100 個任務,仔細評估這些針對孩子 YouTube 視訊是否安全。

「昨天,我做了 50 多份任務,工作了 7 個小時,」一位評級員要求匿名,因為未被授權與我們就這項工作進行談話。

「作為一名家長,讓我很震驚的是,這些名義上給孩子看的視訊,並非真正給孩子看的。」評級員繼續說道。

「內容創作者製作這些漫畫時使用了一些冒牌的孩子角色,比如 Paw Patrol(《汪汪巡邏隊》),但是觀看這些視訊時,他們就開始粗言穢語,講一些黃色笑話等等。許多孩子都是在無人監督下看這些視訊的,這種東西真會給孩子留下精神創傷。」

「許多看上去合乎準則的卡通視訊,卻因其語言問題,要被評為『不好』,就像這個《小豬佩奇》的 視訊。」

與我們交談的 YouTube 合同工就是搜尋質量評級員,幫助訓練谷歌的系統以搜尋問題的最佳結果。

谷歌綜合了演算法和人類審查員(就像那些評級員)的力量,分析其數量龐大的系列產品的內容。

「搜尋評級員對 YouTube 上的搜尋結果進行抽樣並評估其質量,保證在不同搜尋查詢中提供最相關的視訊。」公司發言人在一封發給 BuzzFeed News 的郵件宣告中寫道。

「這些評級員不能決定 YouTube 內容在其搜尋結果中的排名,也不能決定內容是否違反社群準則和內容刪除、年齡限制或是否有資格投放廣告等。」YouTube 表示,這些內容稽核的責任歸屬於一些跨谷歌和 YouTube 工作的小組。

但是,康奈爾大學人工智慧教授 Bart Selman 認為,儘管這些稽核員不能直接決定什麼樣的內容不允許在 YouTube 存在,但是,他們仍然對客戶看到的內容有相當大的影響。

「評級員對視訊質量進行評估,他們有效地改變了視訊的『演算法範圍』」他對我們這樣說道。

「我們知道,除了排名較高的幾個搜尋結果,使用者很少看其剩餘頁面上的搜尋結果,」Selman 繼續說。「給視訊打低分,評分員可以有效地『封鎖』該視訊。」

人工智慧創業公司 Nara Logics 的 CEO Jana Eggers 說,「如果一個搜尋結果存在,但是沒有人看到它,那麼它還是存在的嗎?這就是今天的薛定諤的貓。[評分] 影響排序順序,也會影響看到視訊的人數。」

雖然 Youtube 就評分如何影響排名做出回應,但是,根據我們獲得的截圖和評估指南副本的內容,評估者可以直接評估視訊的效用、質量和適當性。

有時,這些評估人員還被要求確定視訊內容是否會令人反感,引起不安或涉及影響兒童的不良內容。這些評估,以及其他輸入,也成為從事相同工作的 YouTube AI 系統所需的資料燃料。

雖然 YouTube 表示,這些評估人員沒有權力決定視訊內容是否違反其社群準則。但事實上,從截圖證據來看,YouTube 要求評估人員決定 YouTube 視訊是否適合 9 到 12 歲的在無人監督的情況下觀看。

「如果大多數 9 到 12 歲年齡段孩子的父母都放心孩子自行觀看這些視訊,這個視訊就 OK。否則,視訊內容就不能通過審。」指南上這樣寫道。

指南還指導評分員如何將一個視訊定義為「並不 OK」:如果這個視訊包含性、暴力、汙言穢語、毒品或是模仿(即鼓勵不良行為,如危險惡作劇之類)。不過,提供螢幕截圖的評估人員表示,最近爆發針對 YouTube 上不良兒童內容的批評之前,在這個崗位上做了五年的他還沒見過這樣的任務。

但是評估人員說,YouTube 提供的告訴你什麼內容「OK」,什麼內容「Not OK」的例子,雖然更加具體了,但是仍然模糊

比如,他們給出 Taylor Swift 的 Bad Blood 音樂視訊,告訴你這是暴力視訊,是「Not OK」。其他「Not OK」的例子包括,肉桂粉大挑戰(一種勇敢者的挑戰遊戲,之所以被歸為這一類是因為兒童會模仿其中行為)以及 John Legend「All of Me」音樂視訊(Not ok , 因為涉及性)。

但是,一些「輕度、中度的人類或動物暴力」卻被認為是好的。包括接觸性運動專案、日常事故、打鬥遊戲、適度的動物暴力,「輕微顯示血或者外傷」被認為是「OK」。

「本來認為這種評估是有意義的,直到我們看到他們給出的這些樣例。」評估人員說,「我沒把這些樣例當回事,這些例子沒意義,很多時候根本前後不一。我的決定標準就是,自己想不想給孩子看。」

上個月,一個專門製作這類不良視訊的人告訴我們,「老實說,從一開始,我們就和這個演算法有關係。」

這份評估指南讓我們得以深入瞭解訓練演算法的這些資料,以及這些資料又如何鼓勵使用者繼續創造這些視訊。

該指南標註的日期是 2017 年 4 月 26 日,1.2 版,共 64 頁。

一位評估人員告訴他們在 12 月 19 號下載了這份檔案,這意味著儘管這份檔案已經發布了幾個月之久,但是現在仍在使用中。

比如,什麼叫有質量?「製作視訊或是視訊收集需要多少努力或者需要什麼技能,」當評分員進行質量評分時,這些內容就被用來「提供使用者想看的視訊」以及「幫助決定接下來觀看什麼視訊。」

BuzzFeed News 評論,YouTube 搜尋質量評分員指南有一部分涵蓋了「質量評分」。

Selman 表示,這就是「質量評分」應用於像 YouTube 這樣的演算法系統的方式。「評分員將對使用者所看到的內容有重大影響。」

這些指南指導評分員,如果視訊經過後期處理、視訊編輯或者聲音混合等操作,就給該視訊的努力和技巧方面評為高階—而迄今為止平臺上發現的成千上萬的意思兒童色情猥褻的視訊中都有這一特徵。通常,這種「家庭友好型」內容的視訊建立者,在某些情況下可以月入數萬美元,使用原創動畫或是他們自己的孩子作為演員。

在 YouTube 搜尋評級指南中使用了這樣一個例子,將一個帶有『啊啊』呻吟聲的視訊設定為刺耳音樂和引發不安的影像。指南指導評分員以儘可能高的質量對視訊進行評分。

「作者似乎已經把這個視訊動畫化了,並且自己進行配音。這需要一定的努力和心思。」指南寫道。「作者是這個視訊的權威和專家,他已經圍繞這種型別的內容建立了一個品牌,包括一個類似的視訊頻道和一個線上商店。他的 Twitter 迴文這麼寫道,『我寫的歌讓你瘋狂。』」

這些指南指出,像 ToyFreaks 這樣『花了心思』拍攝和編輯,並且反映了「品牌」內容的 YouTube 頻道,經常將視訊建立者的孩子置於一些可能危及孩子安全的情況中,這些視訊可能積累了數千萬的觀看量和差不多 800 萬的訂閱者。

上個月,在公眾強烈抵制其平臺上一些涉嫌虐待威脅兒童內容期間,YouTube 關閉了 ToyFreaks 頻道。

「這是我所說的『價值錯位(value misalignment)』的一個例子,它發生在所有的內容分發平臺上,」Selman 對 BuzzFeed News 說,「這是一種價值錯位,即公司盈利最大化 vs 更廣泛的社會利益最大化。有爭議的和極端的內容會傳播得更快更廣,無論是視訊、文字還是新聞,從而產生更多的意見、更廣泛而頻繁的平臺參與,以及更多的收入。」

評分準則中的另一部分是指導評分者」對 YouTube(如果要求的話)中的敏感資訊進行評分」,有三類選項:色情;不雅但不色情;性安全。在某些情況下,該評分準則可能會出現矛盾。

BuzzFeed 新聞表示,在 YouTube 的搜尋質量評分準則中,有一部分包括視訊類的不雅資訊。

「YouTube 視訊中沒有性內容,」性安全一欄描述道。意思是說,無論是縮圖還是視訊內容的搜尋結果,你都可以和家人一起觀看。

該準則指出的「性安全」方面的一個例子,是一個標題為「口交前需要知道的六件事」的視訊,因為該視訊「是以一個科普式的、性安全式的方式在討論性行為。」

同時,一個標題為「戀足癖相親」的視訊也被打上了「性安全」的標籤,官方解釋是:「內容沒有描繪性行為,而多數使用者不會認為其不雅或有性暗示。」這個視訊特寫了一雙正被刷子挑逗的女人的雙腳。

但據 YouTube 的搜尋評分準則稱,現在,儘管這種戀足視訊已被歸為到「性安全」,但該網站會在視訊播放前插播一個通知:「這個視訊對某些使用者來說可能不合適,」同時這條訊息會提示使用者點選以繼續觀看視訊。

 

儘管搜尋質量評分員們並非 Youtube 的移除內容標記任務的基本負責人,但他們表達了該網站對於其可採取步驟的一些嚴格限制的不滿。「有的視訊令人不安或很暴力,我們可以對其進行標記,但同時還要將其標記為高質量內容 [如果某任務要求這麼做的話 ],」一個評分員告訴 BuzzFeed News 說道。

另一個問題是,有很多工要求我們對視訊中的色情內容進行評級,卻對暴力內容不作要求。我們中的很多人都覺得,一些被標記為「性安全」的視訊卻充滿了暴力語言,這是很奇怪的事。兩名評分員告訴BuzzFeed News 說,如果某項任務不作明確要求的話,工作中通常沒有對於敏感內容的「官方」報告方式——除了兒童色情內容。一個評分員說,他們曾經遇到過一個不好的視訊,並將其標記為不安全,但他們作為評分員無權對該視訊所在的主播頻道進行標記。他們必須作為一名普通使用者向 YouTube 報告。

「我這樣做了,並且得到了 Youtube 的一句自動回覆:謝謝,我們將對其進行調查。」這名評分員稱,「我不知道這個頻道是否被刪除了,但是 YouTube 就像一條水螅:你切斷一個令人喪氣的頻道,第二天就會出現五個。」

評分員也描述了 YouTube 嚴重限制任務完成時間的問題,這使得他們對敏感視訊內容的評估工作變得更加困難。「我們確實沒有時間去仔細觀看更長的視訊,一些評分員就草草了事。」一名評分員稱,「我不得不說,視訊的每一分鐘都需要花費心力審查。」一些需要審查的視訊有數小時之久。

據 BuzzFeed News 所採訪的三名評分員稱,如果他們在某任務上花費的時間過長,就會受到合同公司的處罰。「我收到了另一封電子郵件告訴我,我每小時的處理速度太低了,」

一個評分員在公共留言板中寫到,評分員們在那裡互相交流工作技巧和竅門。「今晚…我只是隨意分配評級,並沒有仔細考慮。YouTube 視訊?是的,不是在看視訊,只是在降低評分。」

如果評分員在觀看冒犯性內容時感到不適,他們可以選擇跳過任務,甚至選擇完全退出。跳過任務的情況還包括:視訊沒有載入成功、查詢結果不清楚、視訊是外文的,或者評分員沒有足夠的時間。

但有多位評分員告訴 BuzzFeed News ,他們害怕面對隱藏的處罰,例如倘若跳過次數太多,他們就不會被分配工作。「我們不清楚 [跳過任務的] 哪些原由是合法的,對於跳過任務量的比例也沒有概念,」一位評分員告訴 BuzzFeed News 。

這個系統的複雜之處在於,評分工作本身存在不穩定性,從而連累到評分人員。我們訪問的幾乎所有色情內容評分員都是谷歌的承包公司 RaterLabs 的兼職員工。(Raterlabs 將工人工作時間的限制為 26 小時/周。)合同中不涉及加薪或帶薪休假,評分員必須簽署保密協議,其法律效應甚至在僱傭關係結束後還得以持續。其中也不乏工作人員被一封簡短的電子郵件解僱的事情,沒有警告,也沒有解釋。

而這一市場正變得越來越集中,僅由少數幾家公司佔據,這可能會壓低行業整體的工資水平。

十一月末,評分承包公司 Leapforce 被競爭對手 Appen 收購。Appen 的時薪在行業內排在末尾,低至每小時 10 美元,而其它公司為每小時 1 7 美元。Leapforce 旗下還有 Raterlabs。

「Appen 的工作方式是專案型的,專案的啟動和停止時間取決於客戶的要求,」Appen 的一位發言人在一份發給 BuzzFeed News 的電子郵件宣告中說道,「這意味著,往往很少有人會注意到專案結束。所以我們的人員指派工作會很快結束。這項工作的可變性質類似於任何的兼職、合同工或臨時工。

八月,距離《連線》雜誌發表關於 ZeroChaos 的就業條件的報告過去了三個月,ZeroChaos 是谷歌的主要的合同公司之一,負責其廣告質量等級評定工作,突然被宣佈終止了合同。即使 ZeroChaos 已經向一些兼職員工承諾將工作到 2019 年。可能有成千上萬的工人會失業。

「這感覺就像是那些文章正在加劇失業情況,「一名評分員告訴 BuzzFeed News 說,「這就是為什麼一些評分員對於新聞 [對我們工作情況的描述] 反應消極的原因。」幾名工人拒絕向 BuzzFeed News 發表相關評論,稱擔心被報復性解僱。

YouTube 在一份宣告中說,公司力求與那些能夠證明有持續的良好工作條件的供應商合作。「當問題引起了我們的注意,我們會提醒這些廠商注意員工關懷問題,並和他們一起解決面臨的任何問題,」該公司發言人在給 BuzzFeed News 的電子郵件中寫道。

由於公眾對 YouTube 平臺上涉及到兒童的不良內容反應強烈,該公司已經採取措施來解決這個問題。

該公司稱,它很快會公佈一份報告,他們刪除了多少違反政策的視訊和評論,他們會分享彙總後的資料。該公司還承諾將「尖端的機器學習」技術應用於兒童安全等更為棘手的領域,該技術已在極端暴力內容中得到應用,當然,它還稱公司正計劃在 2018 年僱傭超過一萬名人類評分員來評估平臺上的視訊。但 YouTube 沒有說明它打算如何修改面向更多評分員的評分準則。

相關文章