大廠的影片推薦索引構建解決方案

公众号-JavaEdge發表於2024-03-07

原文網址 : https://www.cnblogs.com/JavaEdge/p/18058453

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家兼架構，多家大廠後端一線研發經驗，各大技術社群頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統效能最佳化

活動&優惠券等營銷中臺建設

交易平臺及資料中臺等架構和開發設計

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考：

程式設計嚴選網

1 背景

在影片推薦場景：

讓新啟用的影片儘可能快的觸達使用者，對新聞類內容尤為關鍵
快速識別新物品的好壞，透過分發的流量，以及對應的後驗資料，來判斷新物品是否值得繼續分發流量

這兩點對索引先驗資料和後驗資料的延遲都高要求。下文介紹影片推薦的索引構建方案。

先驗資料：影片建立時就帶有的資料如tag，作者賬號id
後驗資料：使用者行為反饋的資料如曝光、點選、播放

2 影片推薦整體架構

資料鏈路角度，從下往上:

影片內容由內容中心透過MQ給到我們，經過一定的處理入庫、建索引、生成正排/倒排資料，這時候在儲存層可召回的內容約1千萬條
經召回層，透過使用者畫像、點選歷史等特徵召回出數千條影片，給到粗排層
粗排將這數千條影片打分，取數百條給到精排層
精排再一次打分，給到重排
重排根據一定規則和策略進行打散和干預，最終取10+條給到使用者

影片在使用者側曝光後，從上到下，是另一條資料鏈路：使用者對影片的行為，如曝光、點選、播放、點贊、評論等經過上報至日誌服務，然後透過實時/離線處理產生特徵回到儲存層，由此形成迴圈。

基於此架構，需設計一套召回/倒排索引，以實時/近實時延遲來處理所有資料。

3 方案設計

舊方案的索引每半小時定時構建，無法滿足近實時要求。分析索引構建方案，發現挑戰：

資料雖不要求強一致性，但需要保證最終一致性
後驗資料寫入量極大，APP使用者行為每日百億+
召回系統要求高併發、低延遲、高可用

3.1 業界主流方案調研

Redis方案靈活性較差，直接使用較難，需較多定製化開發，先排除。

可選方案主要在自研或開源成熟方案。研究發現：

自研索引開發成本較高
簡單自研方案可能無法滿足業務需求，完善的自研索引方案所需開發成本較高，需多人團隊開發維護

最終選擇基於ES的索引服務。不選Solr，主要因為ES有更成熟社群及雲廠商PaaS服務支援，使用更靈活方便。

3.2 資料鏈路圖

3.2.1 方案介紹

資料鏈路角度分兩塊：

先驗資料鏈路，資料來源主要來自內容中心，透過解析服務寫入到CDB中。其中這個鏈路又分為全量鏈路和增量鏈路
- 全量鏈路主要是在重建索引時才需要的，觸發次數少但也重要。它從DB這裡dump資料，寫入kafka，然後透過寫入服務寫入ES
- 增量鏈路是確保其實時性的鏈路，透過監聽binlog，傳送訊息至kafka，寫入服務消費kafka然後寫入ES
後驗資料鏈路。APP使用者行為流水每天有上百億，這個量級直接打入ES絕對扛不住。需對此進行聚合計算

用Flink做了1分鐘滾動視窗的聚合，然後把結果輸出到寫模組，得到1分鐘增量的後驗資料。在這裡，Redis儲存近7天的後驗資料，寫模組消費到增量資料後，需要讀出當天的資料，並於增量資料累加後寫回Redis，併傳送對應的rowkey和後驗資料訊息給到Kafka，再經由ES寫入服務消費、寫入ES索引。

3.2.2 一致性問題分析

該資料鏈路存在的一致性問題：

① Redis寫模組，需先讀資料，累加後再寫入

Redis寫模組，需先讀資料，累加後再寫入。先讀後寫，需要保證原子性，而這裡可能存在同時有其他執行緒在同一時間寫入，造成資料不一致。

解決方案1是透過redis加鎖來完成；解決方案2如下圖所示，在kafka佇列中，使用rowkey作為分割槽key，確保同一rowkey分配至同一分割槽，而同一只能由同一消費者消費，也就是同一rowkey由一個程序處理，再接著以rowkey作為分執行緒key，使用hash演算法分執行緒，這樣同一rowkey就在同一執行緒內處理，因此解決了此處的一致性問題。另外，透過這種方案，同一流內的一致性問題都可以解決。