亞馬遜產品經理:TikTok 的真正優勢,從來都不是演算法(上)

遊資網發表於2020-10-29
亞馬遜產品經理:TikTok 的真正優勢,從來都不是演算法(上)

位元組跳動往往被說成是一家演算法公司,很多人認為, TikTok是靠演算法的黑科技才取得成功的。事實真的是這樣嗎?eugenewei認為不是:TikTok的演算法跟其他公司使用的並沒有太大的不同。TikTok最大的優勢是它採取了對演算法友好的設計模式,在自己內部建立了一個飛輪,幫助其機器學習演算法看到了優化自己所需要看到的東西。原文發表在其個人部落格上,標題是:Seeing Like an Algorithm。篇幅關係,我們分兩部分刊出,此為上半部分。

劃重點:

  • TikTok的演算法本身沒什麼不一樣
  • TikTok的不一樣在於它的app設計讓演算法“看到”有效精確地執行匹配工作所需的所有細節
  • 現代社交網路巨頭的傲慢導致自己陷入到錯綜複雜的問題不能自拔
  • 為了讓自己的演算法發揮最大的效用,TikTok成為了自己的訓練資料來源
  • 以使用者為中心的設計模式一直佔據主導,但演算法友好型設計正在逆襲
  • 為了最大限度地服務好使用者,請先服務好你的演算法
  • TikTok的設計使得它的視訊、使用者和使用者首選項對For You Page演算法清晰可見


在我上一篇關於TikTok的文章中,我討論了為什麼它的For You Page演算法是讓TikTok發揮作用的結締組織。它就是主機板的匯流排,用來連線和關閉所有的反饋迴路。

但是,在急於瞭解為什麼各家公司都想收購TikTok的情況下,如果位元組跳動把這款熱門的短視訊app拆分出來的話,圍繞著它的演算法的炒作已經有點被異化成那種往往被歸納為最近西方對中國科技分析的套路了。

在這篇文章中,我想討論一下TikTok的設計究竟是如何幫助它的演算法表現得跟它一樣好的。上次我討論了為什麼FYP(For You Page)演算法是TikTok飛輪的核心,但是如果這一演算法不夠有效的話,那整個反饋迴路就會崩潰。哪怕你對TikTok或短視訊領域不感興趣,瞭解一下這個演算法是如何實現精確性也很重要,因為各行各業的公司都日益面臨著核心優勢是機器學習演算法的競爭對手的競爭。

我想討論的是TikTok的設計是如何幫助它的演算法“看”東西的。


《國家的視角》 Vs 演算法的視角


James C. Scott的《國家的視角》(Seeing Like a State)是那種很獨特的書,看過之後你會意識到矽谷就有那種使用(濫用)清晰性這個術語的型別。我是在看到Venkatesh Rao的書摘之後第一次聽說這本書的,如果你不打算看原著的話,那篇書摘仍然是很好的tldr入門讀物(Scott Alexander的書評也不錯,只不過他的書評也已經長到可以做自己的tldr )。不過,我建議你還是要好好看看原著。

Scott那本書的副標題是“那些試圖改善人類狀況的專案是如何失敗的”。

這本書可以提高你對日常生活當中的各種意外後果的意識。當我們也有著偉人一般的傲慢時,不妨保持更謙卑的態度。這個世界比我們想象的要更豐富、更復雜。

比方說,Scott的討論有很多都跟我們的現代社交網路巨頭的某種傲慢感有關。這些占主導地位的應用的目的就是要提高自身使用者群的清晰性,其中包括促進互動、防止使用者流失並最終提供定向廣告。反過來,這又導致他們的母公司陷入到錯綜複雜的問題之中,至今都未能擺脫困境。

不過這是需要另行討論的話題了。Scott關注的是民族國家如何用簡化的抽象在概要的層面 “看清”自己的公民,而我想討論的是TikTok的app設計是如何讓它的演算法“看到”有效精確地執行匹配工作所需的所有細節的。這篇文章討論的則是是應用和服務在設計時最大限度利用機器學習新模式。(我知道,這種討論有點諷刺意味,因為這種“看法”有可能被塑造為另一種決定使用者看法的看法,一種美國的科技公司只能作壁上觀的看法。)


TikTok把自己變成演算法的訓練源


近年來,至少在像我這樣的門外漢看來,我們意識到,只需要通過把訓練的資料量增加幾個數量級,機器學習就可以取得很大程度的進步。也就是說,就算演算法本身跟幾年前沒有太大的不同,僅通過在更大的資料集上對其進行訓練,人工智慧研究人員就能取得像GPT-3這樣的突破(GPT-3暫時給科技Twitter們帶來了高潮)) 。

當大家說TikTok的演算法是取得成功的關鍵時,很多人會把某些神奇的程式碼段看作是公該司的祕密武器。俄羅斯當代後現代主義作家Viktor Pelevin說,所有的現代電影都是同一個主角:一個裝滿錢的公文包。從《死吻》的放射性物質公文包,到《低俗小說》裡面的那個類似的裡面金光閃閃的、不知道裝著什麼的公文包,從《魔頭對捕頭》(The Formula)的創世紀方程,到大衛·馬梅特(David Mamet)的《西班牙囚犯》(The Spanish Prisoner)裡面的祕密的金融處理,我們長期以來一直對有魔力的麥格芬(McGuffin,推動情節發展的物件或事件)感到痴迷。最近幾周,對TikTok演算法的討論已經把它提升成了類似的東西,這個演算法就好像是《奪寶奇兵》系列電影(如《法櫃奇兵》、《聖戰奇兵》…)裡面那些神祕的考古文物一樣。

但是這個領域大多數的專家的態度不會是這樣,他們不相信TikTok在機器學習推薦演算法方面取得了迄今為止我們所不知道的進步。實際上,大多數人會說,TikTok的做法大概跟別人的解決問題方法無異。

但是要記住的是,機器學習演算法的有效性不僅僅取決於演算法,還要取決於利用某些資料集訓練過後的演算法。GPT-3也許並沒有什麼新鮮,但是通過接受大規模的資料訓練,以及設定大量的引數,其輸出往往令人驚訝。

同樣地,基於自身資料集訓練過的TikTok FYP演算法,在將視訊與認為該視訊有趣的人進行匹配方面非常準確有效(而且,同樣重要的是,在不向那些不認為視訊有趣的人推送方面也很有效) 。

有些領域,比方說文字,可以輕鬆獲得大量訓練得很好的資料。比方說,要想訓練出像GPT-3這樣的AI模型,你可以到網際網路、書籍等上面找到大量可用的文字集。如果你想訓練視覺AI,可以在網上和各種資料庫裡面找到大量照片。訓練仍然很費錢,但是至少你手頭有足夠的訓練資料。

但對於TikTok (或者抖音)來說,它那擅長推薦短視訊給受眾的演算法可就沒有公開可用的這麼大規模的訓練資料集了。去哪裡可以找到模因、小孩跳舞、對口型、可愛的寵物、推銷品牌的網紅、士兵越障訓練、小孩模仿品牌等內容的短視訊呢?就算你有這樣的視訊,又該去哪裡找到關於大眾對此類視訊感受的可比資料呢?除了Musical.ly的資料集以外(主要是美國喜歡玩對口型的青少年),這樣的資料並不存在。

這是一個獨特的雞生蛋還是蛋生雞的問題,如果沒有這款app的的攝像頭工具和濾鏡,以及拿到版權的音樂剪輯的話,TikTok的演算法需要訓練的那種視訊就很難建立。

那麼,這就是TikTok設計的魔力所在:app會激發和促進視訊的創作與瀏覽,演算法然後用這些視訊進行訓練,再反過來激發和促進視訊的創作與瀏覽,形成反饋迴環。

為了讓自己的演算法發揮最大的效用,TikTok成為了自己的訓練資料來源。

以使用者中心 Vs 對演算法友好


要了解TikTok是如何做出這麼強大的學習飛輪,我們需要對它的設計進行深入研究。

關於科技的UI設計,主導的思想流派(至少是我成長的過去二十年裡)關注的重點是消除使用者所做事情的摩擦,並讓他們在此過程中感到愉悅。其設計目標是優雅,什麼是優雅:優雅就是直觀、巧妙,甚至時尚。

也許沒有一家公司比蘋果把這種設計風格體現得更加淋漓盡致。巔峰狀態下的蘋果總能把自己的軟硬體做出優雅的感覺——“就是這麼好用(it just works)”,但同時又很迷人,讓使用者覺得很雅緻。(蘋果控制風格的名聲就沒那麼光彩了——手機、膝上型電腦不可替換的電池,目前有關應用商店規則的爭論)在釋出新品的主旨演講時,展示一塊硬邦邦的鋁塊是如何變成嶄新的MacBook Pro機身的視訊的理由是什麼?因為聽到工業鐳射把那塊鋁雕刻成一體化機身時發生的聲音很性感?然後,當你在咖啡店用那臺膝上型電腦敲擊一封電子郵件時,在你的潛意識裡,有關那段視訊的一點殘留的記憶裡面會不會讓你的多巴胺受到一點點的觸動?

這種以使用者為中心的設計模式在這麼長時間以來一直佔據著主導地位是有原因的,尤其是在消費類技術裡面。首先,這的確有用。蘋果的市值最終超過了2萬億美元。(還記得假冒的Sean Parker說過十億美元很酷嗎?那還是十年前,現在十億美元不再是金牛了。財富的量級在飛速發展。)此外,我們生活在大規模網路效應時代,應用了Ben Thompson的聚合理論並獲得大量使用者群的科技巨頭,可以在他們所參與的市場當中發揮出不可思議的槓桿作用。要先做到這一點,最佳的辦法之一就是設計出能比競爭對手更好地滿足使用者需求的產品和服務。

長期以來,這種設計流派一直佔據著主導地位,以至於我幾乎忘記了過去時代慣常採用過的一些蠻不講理的軟體設計了。(不要把它跟野獸派設計混為一談,後者其實就像它在建築方面的表親一樣,在設計上是相當美的。)

但是,如果要想最大限度地服務好使用者的關鍵要取決於對機器學習演算法的訓練呢?如果這個ML演算法需要龐大的訓練資料集該怎麼辦?在機器學習方興未艾的時代,這日益成為關鍵的設計目標。

在考慮如何設計app時,你日益必須考慮怎麼才能最好地幫助演算法去“看”。為了最大限度地服務好使用者,請先服務好你的演算法。

TikTok讓我著迷,因為不管是意外還是有意而為之,這都是一個為了儘可能多地給自己的演算法提供有用訊號的現代app的典範。這就是我所謂的演算法友好型設計的範本。(我曾經想過把它叫做以演算法為中心的設計,但覺得這種說法有點過頭了。一個幫助演算法看見東西的設計到頭來仍然是為了給使用者提供儘可能好的體驗。)我們仍然可以認為這只是以使用者為中心的設計的一種變體,但是對於那些大量採用機器學習演算法元件進行產品開發的團隊來說,明確地承認這一點也許有用。畢竟,當產品經理,設計師和工程師開會討論app設計時,演算法是不會出席的。但是,對演算法的訓練需求必須得到體現。

James Scott在談到《國家的視角》,談到了城市設計等領域的巨大變化,比如讓土地面積和業主數量對徵稅者“清晰可見”。TikTok的設計使得它的視訊、使用者和使用者首選項對For You Page演算法清晰可見。這種app設計履行了它的主要職責之一:“像演算法一樣看東西”。

我們不妨仔細看看。TikTok開啟後就是“For You Page”頁面,然後直接進入視訊。這就是它的樣子。

亞馬遜產品經理:TikTok 的真正優勢,從來都不是演算法(上)

這個是到目前為止有史以來最熱門的TikTok視訊。截止到我釋出這篇文章時,它的34.1M個點贊可能已經不止了。你可以看看有關這條TikTok是如何誕生的故事,看過之後你仍然會覺得這是一個充滿悖論的文化難題,但是你看過後會喜歡的。我把這個給我侄女看了,然後我們一起迴圈播放了好幾十次,然後我們一起開始大喊“從M到B,從M到B”,然後一起笑了起來,這是我在這場疫情當中真正的感受不是絕望的少數幾次之一。

整個螢幕被一個視訊填滿。只有一個視訊。視訊用豎屏全屏顯示。注意,這是不能滾動的,而是分頁。視訊幾乎是立即自動播放(接下來的幾個視訊被載入到後臺,所以輪到的時候可以很快播放出來)。

這種設計讓使用者要面對一個緊迫的問題:你對這個短視訊的感覺如何?就這個短視訊。

從視訊開始播放到現在,你所做的一切都是你對該視訊的感受的訊號。你是不是在它還沒播放完就滑向了下一個視訊?是的話就隱含(儘管邊界是顯性的)表示你對它不感興趣。

你是不是看了不止一次,讓它迴圈播放了好幾次?似乎不知怎的它就吸引了你。你有沒有通過內建的分享皮膚分享了這段視訊?這是正面情緒的另一個有力指標。如果你點選右下角旋轉的LP圖示,看了更多有著同樣背景音樂的視訊的話,就是該視訊對你胃口的進一步訊號。音樂線索往往是模因的代名詞,現在TikTok又有了一條為你推薦視訊的軸線了。還有,你是不是跑去看了看視訊創作者的個人資料頁面?你是不是看過她其他的視訊,然後還關注了對方?是的話說明你除了欣賞視訊以外,也許你還特別欣賞對方這個人。

但是,我們不妨再退後一步,看看這你還沒有看到這個視訊之前,TikTok的演算法自己是怎麼“看見”這個視訊的。在這個視訊通過FYP演算法傳送到你的手機之前,TikTok的運營團隊有人已經看了這個視訊,並新增了大量相關標籤或標記。

這個視訊是跟跳舞有關的嗎?是對口型?還是視訊遊戲?有小貓嗎?還是花栗鼠?是搞笑的嗎?主體是男的還是女的?大概幾歲?是群視訊嗎?背景在哪裡?用的是什麼濾鏡或視覺效果?如果裡面包括有食物,是什麼食物?等等。所有這些標籤都成為了演算法現在可以看到的功能。

視訊還要在視覺AI這裡處理一下,併為自己能看到的東西做出貢獻。TikTok有些攝像頭濾鏡能夠跟蹤人臉、手或者手勢,所以視覺AI往往在視訊被建立出來之前就被呼叫過了。

這個演算法還可以看到TikTok所瞭解到的有關你的資訊。你過去喜歡什麼型別的視訊?有關你的人口統計學資訊或心理學資訊有哪些?你是在哪裡看這個視訊的?你用的是什麼型別的裝置?等等。除此之外,還有哪些其他使用者跟你相似?


譯者:boxi
來源:36kr
地址:https://36kr.com/p/936688851967107

相關文章