大規模深度學習系統技術是如何應用的

陶然陶然發表於2022-11-14

  AI引領的新一代資訊科技,正驅動新一輪科技浪潮席捲而來。作為近年來國內發展迅速的移動網際網路平臺之一,小紅書乘勢而上,目前已經形成了以圖文和短影片內容為主的超大型UGC社群。在這個獨特而活躍的社群裡,每天都會產生海量多模態資料及使用者行為反饋,催生出兼具價值與挑戰的新問題。

  當前,大規模深度學習系統正發生著許多令人興奮的進展。在“小紅書REDtech青年技術沙龍”活動中,小紅書技術副總裁凱奇進行了《大規模深度學習系統技術及其在小紅書的應用》分享,為我們揭開LarC的“神秘面紗”。

   小紅書業務概覽

  普通人的真實生活體驗分享

  小紅書是一個蓬勃發展的內容社群,大量懂生活、愛分享的人在這裡交換著彼此的生活體驗和生活態度,並不斷吸引著越來越多的使用者加入。現在,小紅書已經有 2 億的月度活躍使用者,90 後佔比 70% 以上,50% 的使用者來自於一、二線城市,也有一半來自於三、四線城市,使用者構成非常豐富和年輕化。

  “普通人”在分享他們“真實”的“生活體驗”,是小紅書與其他內容平臺和社群非常大的一個不同點。首先,分享者都是“普通人”,其次,“真誠分享,友好互動”是小紅書社群公約,“真誠”是很重要的一點。這些社群中的分享和我們的線下生活消費有著緊密的聯絡,比如寶藏書店、或是怎麼穿衣搭配、怎麼裝修、怎麼做菜等內容,都是大家的日常“生活體驗”。  

  我們用一些數字也可以去衡量小紅書社群這些年的發展,我們看到,筆記釋出量從 2018 年到 2021 年是每年都以非常快的速度在增長,2020 到 2021 年,小紅書使用者筆記釋出量同比增長超 150%。  

  三大主要業務:社群、商業化、電商

  在這樣一個高速發展的內容社群裡,最主要的三大業務就是社群、商業化和電商。

  首先,我們的內容社群和內容平臺是一個覆蓋全生活品類,以 UGC 為主的生活方式內容社群。也因為這種貼合生活和日常消費的“真誠分享”,使用者對我們的社群內容有很高的信任度,大家在看到好的生活方式、消費內容、服務和產品等時會被“種草”,我們透過獨特的“種草”商業模式帶來品牌和效果的轉化。

  “種草後是不是順便可以拔個草”,在消費內容的同時,大家也希望能夠自然、方便地買到自己心儀的物品,這是我們高效的閉環消費場域,也就是電商這一部分。

   小紅書技術挑戰

  多模態技術是當前整個 AI 領域廣受關注、發展迅速的技術方向之一,UGC 社群和內容生態中包含大量的圖文、影片、文字和使用者行為資訊,產生了海量高質量的多模態資料,因此成為了優秀的實踐場景。使用者看到好的內容點贊、做的各種搜尋行為、對某個影片的觀看等等,構成了大量使用者實際的反饋。

  現在每一天實際透過使用者行為產生的反饋樣本量都有幾百億的級別。如何在海量的多模態資料中挖掘使用者感興趣的內容和好的商業內容,從這個目標出發,衍生出很多有價值同時也具備挑戰性的問題.

  我們是怎麼去解決這些技術的:

  千人千面的實時推薦系統

  開啟小紅書,首先映入眼簾的就是列的瀑布流或者內容流,這些都是推薦系統給大家推薦的內容。據統計,小紅書每天產生的使用者行為達到幾百億級別的規模。對於這些資料,小紅書技術團隊使用基於 LarC 的機器學習框架對模型進行訓練,根據使用者行為中的規律,找出使用者感興趣的內容並推薦給使用者。

  下圖為小紅書推薦模型的大概結構。這是一個多工的機器學習模型,它能夠預估使用者的點選、停留時長、是否點贊收藏等行為。針對小紅書平臺產生的海量的係數引數,小紅書透過超大規模無衝突的引數伺服器,對這些引數進行更新和捕捉。  

  推薦系統的 Online Training 如下。當使用者在瀏覽資訊流的時候,推薦系統會實時捕捉使用者的瀏覽、點選、點贊等行為,這些行為會基於 Flink 實時處理的計算引擎對這些資料進行拼接,從而產生高效能的樣本,然後這些樣本會被實時送到模型中去做預估。同時,這些短暫累積的樣本也會用來做一次非常短暫的 Online Training 以更新模型引數。這些更新後的模型引數會立刻釋出到線上,去服務下一次的請求。整個過程是保持在分鐘級別的。  

  業界還有一個經典問題,比如大家瀏覽推薦內容時經常會發現:為什麼密集地推送我以前看過的東西?我看的東西新鮮感不夠了怎麼辦?  

  在推薦場景中,關注較短的時間週期會使得追打和資訊繭房問題嚴重,小紅書技術團隊對使用者的多元化長短期行為設計了不同的序列建模方式,在多個維度帶來了顯著提升。此外,關於內容推薦的多樣性問題,小紅書技術團隊將傳統的多樣性做法從 DPP 改進到 SSD 演算法,在資訊流推薦的場景中高效地滑窗計算,從而將單篇模型的價值排序轉化為整個瀏覽週期的建模。這背後依賴的是孿生神經網路學習長尾內容的相似性。

  相關工作成果我們已經發表在 KDD 2021 會議上,它從單篇價值的預估轉變成一個序列價值的預估,從單篇的多樣性轉變成多篇的多樣性,背後也是基於 SSD 演算法,以及基於這個孿生神經網路對內容相似性的評估。

  多模態泛化的生活搜尋引擎

  由於小紅書社群包含了的大量實際生活當中非常有用的資訊,很多使用者都會把小紅書當作搜尋引擎來用。這其中包含一些挑戰,比如多種資料形態的搜尋、長尾現象嚴重、意圖理解問題等。

  現有的圖文搜尋引擎,透過文字可以搜尋圖片,但做法都相對簡單,通常都是給圖片打上文字的標籤,然後再做文字的匹配。小紅書團隊構建的下一代多模態泛生活搜尋引擎,它基於對多模態內容深入的理解,透過圖文、文字真正搜尋視覺的內容,也能夠根據使用者的特點去做更加個性化的搜尋。  

  什麼叫做泛生活知識搜尋引擎?比如我們在小紅書上看到了一件好看的的衣服或鞋子,想搜一搜它的搭配有哪些,以及在不同場合下它分別展現出怎樣的感覺。這是關於生活知識的搜尋,同時它又是一個多模態的搜尋。

  這其中顯示的是小紅書技術團隊規劃的多模態,特別是對於搜圖片這樣的技術架構,其中非常關鍵的一個依賴是特徵多模組,需要依賴大規模的神經網路去做表徵學習,對圖片中包含的內容,無論是衣服、鞋或是其他商品商品,都能有一個很好的表徵。很好的從大量的多模態內容當中檢索出相同的商品或者相似的商品,這是我們在搜尋上對大規模神經網路的一個應用。

  AI 生成更原生的商業內容

  與其他平臺相比,小紅書的商業內容有一個很大的不同點——原生化。所謂原生化,就是從點贊、評論等行為去看,使用者對這個內容非常欣賞,可能完全感覺不到它是一個商業內容。但是對於平臺上的商家來說,製作這樣的商業內容的門檻很高。如何很好地平衡商家的商業意圖與生產內容的使用者價值,是一個很關鍵的問題。

  為此,小紅書技術團隊使用了基於大規模神經網路的生成式技術,來幫助商家根據內容去生成更好的標題和內容。比如商家可以選擇進行多個賣點表達,也可以選擇突出目標客戶群體,或者是喜歡的小紅書風格,機器會自動給出建議的標題,在引用機器創作的標題後,無論業務效果、點選或者是停留時長都得到了很好的提升,使用者也是非常喜歡這樣的內容,所以它做到商業和使用者價值很好的平衡。  

  這背後其實是基於大規模的預訓練模型,包括業界較為領先的 T5、BERT、GPT 等模型架構,這些模型架構都在小紅書海量的多模態資料上進行了訓練。一部分的預訓練模型用來去做筆記內容理解,一部分預訓練模型會被用來去指導生成式模型去生成標題,這些都是相關技術在商業領域的應用方式。  

  大規模機器學習平臺

  上述所有的機器學習內容,其實都是基於小紅書技術團隊自研的 LarC 機器學習平臺。它啟動於 2019 年,到了 2020 年和 2021 年,相關的機器學習框架和平臺推廣到了搜尋、推薦、廣告等所有領域。2022 年,LarC 實現了平臺化。  

  目前,LarC 機器學習平臺的能力已經相當完整,涵蓋從底層基礎設施到計算框架、資源排程、離線應用以及線上部署多個層面(其中標黃部分代表已經實現)。  

  藉助 LarC 機器學習平臺,小紅書技術團隊希望能夠幫所有演算法同學迅速、高效地處理海量資料,訓練大規模機器學習和深度學習模型。

   Summary

  小紅書是高速發展的內容社群,“普通人”、“真實分享”、“生活體驗”是它的關鍵詞。

  在這樣一個具有海量的多模態資料及使用者反饋資料場景下,催生出很多前沿技術探索。以上是從大量技術工作當中挑了一些點出來跟大家做分享,其實還有很多內容,希望大家能夠從當中對小紅書的技術和大規模的深度學習有所瞭解。

來自 “ 小紅書技術REDtech ”, 原文作者:凱奇;原文連結:http://server.it168.com/a2022/1114/6774/000006774693.shtml,如有侵權,請聯絡管理員刪除。

相關文章