YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

AI科技大本營發表於2017-08-16


YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

編譯 | AI科技大本營(rgznai100)

參與 | reason_W


當下視訊網站的火熱程度大家都是有目共睹的,因此也產生了一些網紅視訊博主,比如深受營長喜愛的papi醬以及papitube的各位po主。

那麼,這些網紅是怎樣使自己的視訊迅速走紅的,網站是通過哪些標準向廣大吃瓜群眾推薦視訊的,其中使用了什麼演算法呢?

在視訊網站不公開演算法的情況下,上傳視訊的各大網紅如何才能抓住視訊分發過程中的套路,長期穩定地生產高品質視訊內容?這裡面到底有沒有一條真正可行的路徑?還是真的只能靠三俗內容來不斷挑戰廣大觀眾的下限?

歡迎來到我們解析YouTube演算法的第一部分。我們將從YouTube的一個動畫視訊製作商如何跟YouTube演算法的長期鬥法開始說起,看一看他在對YouTube演算法一無所知的情況下,如何從數個月的運營推廣經驗中逆向推匯出影響YouTube演算法的幾大因素:觀看時長, 訪問量、訪問速度、訪問時長、啟動會話、上傳頻率、持續會話時間、結束會話時間,等等。

現在,就讓我們跟著本文作者Matt Gielen,一起來探索YouTube推薦視訊背後的六個祕密。


正文:

無論是故事片、舞臺劇、電視節目,還是當前線上播放的各種視訊,只要你是在為某種形式的發行機構創作內容,它的分發機制就能在很大程度上決定你作品的成敗。

比如,你在做一部電視劇,你肯定期待它能成功。那你最好清楚什麼時候插播廣告最好、如何做宣傳更有效果、哪個頻道更契合你的內容以及該頻道的收視人數能有多少等等諸如此類的問題。

然而,如果你是在YouTube上釋出視訊,那就比較難了,因為其分發機制上最有價值的點是YouTube演算法的工作原理。畢竟,與演算法相關的一切事情都比較難懂。更何況,YouTube根本沒公開哪些變數是它的演算法會考慮進去的因素。

但哪怕能獲得的資料非常有限,為了弄清楚它是如何工作的,我們也想對這個巨大的黑箱一探究竟。有些資料對演算法影響很大,拿到它們(如縮圖和標題印象,使用者訪問歷史記錄和行為,觀看時長等)就能在很大程度上提高演算法對透明度。但很可惜,我們沒辦法拿到。

不過我們還是儘可能地利用了能拿到手的資料。我和我的前同事Jeremy Rosen花了六個多月的時間來研究Frederator所擁有並運營的頻道資料,想盡可能多地搞明白YouTube的演算法。

在開始之前還有一些事兒我得說明下。在這篇文章中,我們會把YouTube的很多推廣演算法(如推薦(Recommended),建議觀看(Suggested),相關視訊(Related),搜尋(Search),評分(MetaScore)等)統稱為“YouTube演算法”。它們之間存在很多差異,但在一點上是一致的,就是優化目標都是“觀看時長”(=瀏覽人數×平均觀看時長)


關於“觀看時長”,可以參考作者另一篇文章

http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/

眾所周知,視訊的成功與否在於觀眾的觀看時長。本文中,我會就影響“觀看時長”的幾個核心變數,詳細聊聊我的心得體會。


                                                                     觀看時長


首先,“觀看時長”並不意味著觀看的分鐘數。跟我們之前討論的一樣,觀看時長是以下幾個專案的組合:

  • 訪問量和訪問速度

  • 訪問時長

  • 啟動會話

  • 上傳頻率

  • 持續會話時間

  • 結束會話

基本上,這些專案中的每一個都關係到你的頻道和視訊表現的好壞:觀眾是不是經常來訪問(開始一次頁面訪問會話),以及他們是不是會停留很長時間。

為了讓你的頻道跟視訊在演算法中累計下任何變數值(譯者注:起碼得讓變數值不為0吧),你首先需要獲取訪問量。為了讓這些視訊“成功”(即在前30天內訪問量實現等於或大於訂閱者的50%的觀眾),你需要在視訊釋出開始的前數分鐘、數小時、數天內獲得大量的訪問次數,我們將其稱為訪問速度。

接下來,我們先來看看兩個變數的作用。


                                                             訪問量和訪問速度


在分析Frederator的“訪問速度”時,我們發現隨著前48小時訂閱使用者訪問百分比的增加,視訊的平均累計訪問量也在呈指數增長:

       YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

根據這個發現,我們進行了一些更深入的挖掘:如果用這個“訪問速度”的規律去預測視訊是否會表現良好,能達到92%的準確率。

其實,視訊的平均累計訪問量和前72小時訂閱使用者訪問百分比的相關性更大。

YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

這些圖和相關性充分表明,“訪問量”和“訪問速度”對於視訊和頻道的整體成功有著直接而重大的影響。

此外,有證據表明,這個影響反過來也很明顯:“訪問速度”低不僅對當前視訊有負面影響,對前一個視訊和後一個視訊也有負面影響

下面這個圖顯示,如果Frederator上一次上傳的視訊在前48小時內的“訪問速度”低(低的定義是指訂閱使用者訪問百分比不到5%),則下一次上傳也將受到負面影響。

       YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

該資料證實了馬修·帕特里克在視訊(https://www.youtube.com/watch?v=HLJQ0gFHM8s)中提到的理論。他的理論表明,如果你的某個視訊沒有被大量訂閱者點選,YouTube就不會賦給你的下一次上傳內容很大的訂閱者推薦比重。或者是因為你的前期上傳工作做得不好,使得頻道的訪問量變低,這反過來會導致分發機制將你的內容分發給更少的觀眾。但不管原因是哪個,悲催的結果是一樣的。

有證據表明,低“訪問速度”對新上傳內容的另一個重要影響是,它也損害了你的視訊庫的整體訪問量。

下面的第一張圖表中,藍線是前48小時訂閱使用者訪問量,紅線是前48小時訂閱使用者訪問量與頻道整體訪問量的七天滾動平均百分比。 第二個圖表顯示了當天視訊的訪問次數與頻道整體訪問次數的百分比。

YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

這兩個圖表都表明了一件事:當訂閱使用者訪問你的新上傳視訊和/或頻道庫視訊的百分比下降時,頻道整體訪問次數也會下降。

也就是說,通過這樣的演算法,YouTube會積極推廣那些能吸引該頻道核心觀眾的頻道,同時積極懲罰不能吸引觀眾的頻道。


                                                                 訪問時長


我們發現,對演算法有重大影響的下一個最大變數是“訪問時長”。訪問時長表示觀眾停留在單個視訊頁面上的時長。

這個變數有很大的權重。在我們的資料中,可以看到有一個明顯的轉折點:在Frederator頻道今年的資料上,平均訪問時長超過八分鐘的視訊在頭30天內的訪問次數比那些訪問時長在五分鐘以下視訊的訪問次數高350%。

下圖顯示了Frederator頻道上視訊的平均累計訪問量與這些視訊的平均訪問時長的關係。

YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

注意:這裡沒考慮視訊持續時間大於8分鐘的視訊資料(因為這樣只要看完視訊,訪問時長就大於8分鐘了)。


我們還發現,訪問時間越長,視訊表現也會更好

下圖顯示了視訊訪問時長不到五分鐘(1),五分鐘到十分鐘(5)和10分鐘以上(10)的視訊前七天的平均訪問次數:

       YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

下圖這張圖也是這個意思,不過從7天拉長到整個生命週期了。

       YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

除了這些發現之外,我們還有個不太確定的結論,延長視訊時間能提高訪問資料的表現。

Frederator有一個兒童樂園的頻道,每週會上傳三到四個視訊(時長分別是3分鐘,10分鐘,30分鐘和70分鐘)。我們注意到,即使是上傳頻道庫的一些舊視訊,70分鐘時長視訊的前48小時訪問量也遠遠高於其他視訊。除此之外,70分鐘時長的視訊與該頻道上其他任何時長視訊的平均訪問時長相同。

我們建議他們每週只上傳70分鐘時長的視訊。採取了我們的策略之後,兒童樂園頻道每日的平均訪問次數增加了50萬次,同時在過去6周內的視訊上傳量卻減少了75%。這讓人很驚訝,我知道。


                                  啟動會話,持續會話時間和結束會話


這項研究大部分是基於我之前發表的研究,WTF Is Watch Time?!


http://www.tubefilter.com/2016/05/12/youtube-watch-time-metric-algorithm-statistics/


具體請參考我以上研究,在此不做贅述,只簡單回顧一下三個概念。

啟動會話是指從你的某部視訊開始,進入YouTube頁面,正式開始頁面訪問會話的人數(譯者注:可以理解成看到了你的某個視訊才讓使用者想起來開啟Youtube)。

這說明了為什麼你的訂閱使用者的前72小時的訪問量如此重要。訂閱使用者是在第一天就可以觀看你的視訊的人。他們也最可能點選該頻道的縮圖,因為他們熟悉你的品牌。

持續會話時間是使用者觀看你的視訊以及觀看完後在頁面上逗留的時間長短。

結束會話是指在觀看你的某個視訊時或看完後離開YouTube,結束頁面會話的頻率。


                                                                    演算法理論


YouTube的演算法關注頻道的推廣效果,而不是個人視訊的效果。

YouTube的演算法表明了他們對頻道的期望:
  • 能讓人們經常回到平臺

  • 能讓人們長時間停留在平臺上

下面的三張圖給出了這個理論的證據。

第一張圖是48小時訂閱者訪問次數百分比和個人視訊7天訪問次數。它告訴我們,如果有很多使用者是從你的視訊開始的Youtube頁面會話(即啟動會話),你的視訊就會獲得很多的訪問量。如果訂閱者的訪問次數達到某個閾值,訪問量就會變為指數增長:

   YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

第二個圖表顯示平均每日訪問次數和頻道的五天滾動訂閱使用者訪問百分比關係。

    YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

這意味著如果你能持續地獲得大量使用者啟動會話(五天滾動平均),演算法就會增加你的視訊傳送到該頻道整個視訊庫的日訪問量。

最後一張圖是平均日訪問次數佔訂閱者的百分比和頻道的五天滾動訪問次數百分比的關係。

     YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

這表明,頻道的持續性和訪問量之間存在相關性,而訪問量又表現為訂閱使用者訪問的百分比。

所以,假設你有一個擁有10萬訂閱使用者的遊戲頻道,每天上傳6個視訊,並且每個視訊的訂閱使用者訪問百分比能達到5%。那麼,你的滾動平均值將是穩定且適中的5%。這意味著你將在每天獲得約30%的訂閱使用者訪問量(或每天3萬訪問量或每月60萬訪問量)。如果我們假設你有1百萬訂閱使用者的話,那這些數字將變成每天30萬次訪問量,每月600萬訪問量。

我們認為這一段數學運算沒有騙人。這意味著,YouTube在根據某些確定性指標來選擇頻道進行推廣,然後隨著演算法對該頻道的推廣,就會帶來相應多的訪問量。

但注意,以上分析純屬理論!


                                                                 評分演算法


這裡我們將對這些演算法進行逆向破解,並進行重建。通過15個變數和對其權重的最佳估計,我們建立了一個評分演算法。

以下是我們使用的變數:

                                       YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

這些變數用於開發評分演算法的演算法因子。

下面這些圖是這些因子的實際效果。

     YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

     YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

下面這張圖展示得更加詳細。

   YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

知道你好奇,下面這張圖就是我們對演算法各項變數權重的一個(非常)粗略的估計:

     YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

     YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

     YouTube是通過怎樣的演算法推薦視訊的?看看這位小哥的推測

然而,因為沒有更多的資料,我們還不能確定在計算相關性中該使用哪種型別的迴歸。


                                   對YouTube(當前)演算法的分析


根據我們的資料,至少可以得到6個祕密:

  1. YouTube通過演算法決定了每個視訊和頻道能獲得多少訪問量。

  2. 成功的頻道專注於某個特定的內容型別/想法。

  3. 頻道一旦確立起成功的內容型別後,就不應該再進行太多探索。

  4. 高價內容製作者在YouTube平臺上永遠不會取得成功,因此這部分群體也絕不會完全接受Youtube。

  5. 個性化的節目/頻道將永遠是平臺上的主要內容型別,因為它們就是人們要看的“特定的內容型別”。

  6. 新建立的頻道,如果不能從YouTube站外導流進去的話,想要提高訪問量會很不容易。

總而言之,我們認為,該演算法旨在推廣那些能夠聚攏並保持觀眾粉絲群的頻道。

如果你想在YouTube上取得成功,我們給你的最佳建議是,你應該專注於某個特定群體利益的市場,並儘可能對單個話題製作出長達10分鐘或更長的視訊。

需要提醒你的是,以上是我的私人筆記,YouTube因為它的演算法遭受了很多批評,但我希望他們別將我的這篇心得體會看成一篇負面稿。

通過整個研究,我對YouTube演算法工程師的瞭解加深了。畢竟,他們每個月都要努力應對全球10億多興趣各不相同的人。當你停下來從全域性審視這一切,就會驚歎Youtube演算法的精妙,這些設計在出色完成YouTube業務發展目標的同時,還防止了人們的濫用,保護了平臺的健康發展。


(本文作者Matt Gielen,曾擔任Frederator Networks前副總裁,主管程式設計和觀眾發展。 Matt管理團隊建立了世界上最大的動畫網路——Frederator Networks頻道。此外, 他還領導了團隊進行YouTube上Frederator Networks運營頻道的製作和程式設計。本篇即為其通過資料研究分析的心得體會。)


相關文章