分散式機器學習框架與高維實時推薦系統

第四范式天枢發表於2020-07-20

導讀：隨著網際網路的高速發展和資訊科技的普及，企業經營過程中產生的資料量呈指數級增長，AI 模型愈發複雜，在摩爾定律已經失效的今天，AI 的落地面臨著各種各樣的困難。本次分享的主題是分散式機器學習框架如何助力高維實時推薦系統。機器學習本質上是一個高維函式的擬合，可以透過機率轉換做分類和迴歸。而推薦的本質是二分類問題，推薦或者不推薦，即篩選出有意願的使用者進行推薦。本文將從工程的角度，講述推薦系統在模型訓練與預估上面臨的挑戰，並介紹第四正規化分散式機器學習框架 GDBT 是如何應對這些工程問題的。

主要內容包括：

推薦系統對於機器學習基礎架構的挑戰
大規模分散式機器學習場景下，不同演算法的效能瓶頸和解決思路
第四正規化分散式機器學習框架 GDBT
面臨的網路壓力及最佳化方向

推薦系統對於機器學習基礎架構的挑戰

1. 海量資料+高維特徵帶來極致效果

傳統的推薦系統中，我們只用簡單的模型或者規則來擬合資料，就可以得到一個很好的效果 ( 因為使用複雜的模型，很容易過擬合，效果反而越來越差 )。但是當資料量增加到一定的數量級時，還用簡單的模型或者規則來擬合資料，並不能充分的利用資料的價值，因為資料量增大，推薦的效果上限也隨之提升。這時，為了追求精準的效果，我們會把模型構建的越來越複雜，對於推薦系統而言，由於存在大量的離散特徵，如使用者 ID、物品 ID 以及各種組合，於是我們採用高維的模型來做分類/排序。

2. 強時效性帶來場景價值

隨著時間的推移，推薦場景面臨的問題也在發生著變化，尤其是新聞、資訊類的推薦，物料的變化非常快。同時，使用者的興趣和意願也在時刻發生著變化。我們的模型都是根據歷史資料總結出來的規律，距離當前時間越近的資料，對於預測越有指導意義。為了增強線上效果，就需要增加模型的時效性，按照資料價值的高低，將時效性分為：硬實時、軟實時、離線，這裡重點介紹下硬實時和軟實時。

硬實時：

硬實時是指毫秒級到秒級的特徵。這類特徵往往具有指導性意義，同時對系統的挑戰也是最大的，很難做到毫秒級或秒級的更新模型。通常的做法是透過快速的更新特徵資料庫，獲取實時特徵，來抓取秒級別的變化。尤其是新使用者冷啟動問題，當新使用者登陸 APP，如果在幾秒內，特徵資料庫就能收集到使用者的實時行為，從而快速的抓取到使用者的興趣愛好，可以在一定程度上解決冷啟動問題。

軟實時：

軟實時是指小時級到天級別的時間段。這時有足夠的時間做批次的模型訓練，可以週期性的更新模型的權重，使模型有更好的時效性。同時軟實時對算力的消耗也是最大的，因為天級別的更新和周級別的更新模型，效果差距非常大。

3. 充分發揮資料的價值

因此，為了更好的模型效果，我們需要處理海量資料、高維模型和實時特徵，而這一切都需要 AI 基礎架構提供充沛的算力。

大規模分散式機器學習場景下，不同演算法的效能瓶頸和解決思路

1. 算力問題

當前面臨的算力問題主要包括：

a. 資料量指數級增長，而摩爾定律已經失效。曾經有個玩笑，當程式設計師覺得程式跑得慢時，不需要最佳化程式碼，只需睡上一覺，換個新機器就好了。但現在摩爾定律已經失效，我們只能想方設法的最佳化程式碼和工程。

b. 模型維度高，單機記憶體難以承受，需要做分散式處理。

c. 模型時效性要求高，需要快迭代，會消耗大量的算力。這時，如何解決算力問題變得非常有價值。

2. 方案

可行的解決方案有：

分散式+異構計算解決擴充套件性問題：由於資料增長很快，單機的算力很難提升，尤其是 CPU 算力增長緩慢。我們可以用 GPU、加速卡來提供強有力的算力，用分散式的儲存來更新模型，解決模型的擴充套件問題。
大規模引數伺服器解決高維問題：當模型大到單機放不下時，我們就會使用引數伺服器來解決高維問題。
流式計算解決時效性問題：對於模型的時效性有一種省算力的方法是用流式計算來解決，但是流式計算非常容易出錯。

總結來說，就是如何最佳化模型訓練速度，採用流式計算可以一定程度上解決這個問題。

3. 線性加速並非易事

單靠堆機器在機器學習上是不能直接加速的，稍有不慎就會陷入"一核有難八核圍觀"的場景。現在很多分散式的計算都有單點的設計，這會極大的降低系統的擴充套件性。機器學習需要很多機器更新同一個模型，這就需要同步，不管是執行緒同步，還是程式同步，或者機器間依賴網路節點同步。一旦做不好，會消耗大量時間，這時你會發現，寫個單機的程式可能會更快一點。

分散式機器學習框架 GDBT

1. GDBT

GDBT 是一個分散式資料處理框架，配備了高效能分散式大規模離散引數伺服器。其核心元件包括：分散式資料來源、引數伺服器、計算圖。基於 GDBT 框架我們實現了一系列的高維演算法：如邏輯迴歸、GBM ( 樹模型 )、DSN 等，以及自動特徵和 AutoML 相關的演算法。GDBT 的工作流程圖如上圖所示。

接下來，選擇 GDBT 框架中的幾個核心元件為大家詳細介紹下：

2. 分散式資料來源 ( 資料並行 )

分散式資料來源 ( DataSource ) 是做資料並行的必備元件，是 GDBT 框架的入口。DataSource 最重要的一點是做負載均衡。負載均衡有很多種做法，這裡設計了一套爭搶機制，因為線上程排程中，執行緒池會採用 work stealing 機制，我們的做法和它類似：資料在一個大池子中，在每一個節點都儘可能讀屬於自己的資料，當消費完自己的資料時，就會去搶其它節點的資料，這樣就避免了節點處理完資料後的空置時間，規避了"一核有難八核圍觀"的現象。

由於 DataSource 也是對外的入口，因此我們會積極的擁抱開源生態，支援多種資料來源，並儘可能多的支援主流資料格式。

最後，我們還最佳化了 DataSource 的吞吐效能，以求更好的效率。因為有的演算法計算量實際上很低，尤其是邏輯迴歸這種比較簡單的機器學習演算法，對 DataSource 的挑戰是比較大的。

實驗結果：

這裡我們用 pDataSource 對比了 Spark 和 Dask。Spark 大家都比較熟悉，Dask 類似 python 版的 Spark，Dask 最開始是一個分散式的 DataFrame，漸漸地發展成了一個分散式的框架。如上圖所示，由於我們在記憶體上的最佳化，透過對比吞吐量和記憶體佔用，pDataSource 用30%的記憶體資源就可以達到 Spark2.4.4 120% 的效能。

3. 引數伺服器

引數伺服器類似於分散式的記憶體資料庫，用來儲存和更新模型。引數伺服器會對模型進行切片，每個節點只儲存引數的一部分。一般資料庫都會針對 workload 進行最佳化，在我們的機器學習訓練場景下，引數伺服器的讀寫比例各佔50%，其訓練的過程是不斷的讀取權重、更新權重，不斷的迭代。

對於大部分高維機器學習訓練，引數伺服器的壓力都很大。引數伺服器雖然自身是分散式的，但引數伺服器往往會制約整個分散式任務的擴充套件性。主要是由於高頻的特徵和網路壓力，因為所有的機器都會往引數伺服器推送梯度、拉取權重。在實際測試中，網路壓力非常大，TCP 已經不能滿足我們的需求，所以我們使用 RDMA 來加速。

機器學習中的高頻特徵更新特別頻繁時，引數伺服器就會一直更新高頻特徵對應的一小段記憶體，這制約了引數伺服器的擴充套件性。為了加速這個過程，由於機器學習都是一個 minibatch 更新，可以把一個 minibatch 當中所有高頻 key 的梯度合併成一個 minibatch，交給引數伺服器更新，可以有效的減輕高頻 key 的壓力。並且在兩端都合併後再更新，可以顯著減輕高頻特徵的壓力。

對於大規模離散的模型，引數伺服器往往要做的是大範圍記憶體的 random massage。由於計算機訪問記憶體是非常慢的，我們平常寫程式碼時可能會覺得改記憶體挺快的，其實是因為 CPU 有分級快取，命中快取就不需要修改記憶體，從而達到加速。同時 CPU 還有分級的流水線，它的指令是亂序執行的，在讀取記憶體時，可以有其它的指令插進來，會讓人覺得訪問記憶體和平常執行一條指令的時間差不多，實際上時間差了幾十到幾百倍。這對於執行一般的程式是可行的，但對於引數伺服器的工作負載，是不可行的。因為其工作流程需要高頻的訪問記憶體，會導致大量的時間用在記憶體訪問上。所以，如何增加命中率就顯得尤為重要：

我們會修改整個引數伺服器的資料結構。
我們做了 NUMA friendly。伺服器往往不只一個 CPU，大多數是兩個，有些高階的會有四個 CPU。CPU 周邊會有記憶體，一個 CPU 就是一個 NUMA。我們儘量讓引數伺服器所有的記憶體綁在 NUMA 上，這樣就不需要跨 CPU 訪問記憶體，從而提升了效能。
還有個難點是如何保證執行緒安全。因為引數伺服器是多執行緒的，面臨的請求是高併發的，尤其是離線時，請求往往會把伺服器壓滿。這時要保證模型的安全，就需要一個高效的鎖。這裡我們自研了 RWSpinLock，可以最大化讀寫併發。受限於篇幅，這裡就不再進行展開。
最終的效果可以支援每秒 KV 更新數過億。

4. 分散式機器學習框架的 Workload

① 分散式 SGD 的 workload

分散式 SGD 的 workload：

首先 DataSource 會從第三方的儲存去讀資料。這裡畫了三個機器，每個機器是一條流水線，資料來源讀完資料之後，會把資料交給 Process，由 Process 去執行計算圖。計算圖當中可能會有節點之間的同步，因為有時需要同步模式的訓練。當計算圖算出梯度之後，會和引數伺服器進行互動，做 pull/push。最後 Process 透過 Accumulator 把模型 dump 回第三方儲存 ( 主要是 HDFS )。

② 樹模型的 workload

目前樹模型的應用廣泛，也有不少同學問到分散式的樹模型怎麼做。這裡為大家分享下：

首先介紹下 GBDT ( Gradient Boost Decision Tree )，透過 GBDT 可以學出一系列的決策樹。左圖是一個簡單的例子，用 GBDT 來預測使用者是否打遊戲。對於 Tree1，首先問年齡是否小於15歲，再對小於15歲的使用者問是男性還是女性，如果是男性，會得到一個很高的分值+2。對於 Tree2，問使用者是否每天使用電腦，如果每天都使用，也會得到一個分值+0.9，將 Tree1 和 Tree2 的結果相加得到使用者的分值是2.9，是一個遠大於零的數字，那麼該使用者很有可能打遊戲。同理，如果使用者是位老爺爺他的年齡分值是-1，且他每天也使用電腦，分值也是+0.9，所以對於老爺爺來說他的分值是-0.1，那麼他很有可能不會打遊戲。這裡我們可以看出，樹模型的關鍵點是找到合適的特徵以及特徵所對應的分裂點。如 Tree1，第一個問題是年齡小於15歲好，還是小於25歲好，然後找到這個分裂點，作為這個樹的一個節點，再進行分裂。

樹模型的兩種主流訓練方法：

❶ 基於排序：

往往很難做分散式的樹模型。

❷ 基於 Histogram：

DataSource 先從第三方的儲存當中讀資料，然後 DataSource 給下游做 Propose，對特徵進行統計，掃描所有特徵，為每個特徵選擇合適的分類點。比如剛剛的例子，我們會用等距分桶，我們發現年齡基本上都是在0到100歲之間，可以以5歲為一個檔，將年齡進行等分，作為後面 Propose 的方案。有了 Propose 的點之後，由於每個機器都只顧自己的資料，所以機器之間要做一次 All Reduce，讓所有的機器都統一按照這些分裂點去嘗試分裂，再後面就進入了一個高頻更新、高頻找特徵的過程：

首先我們會執行 Histogram 過一遍資料，統計出某一個特徵，如年齡小於15歲的增益是多少，把所有特徵的 Propose 點的增益都求出來。由於機器還是隻顧自己的資料，所以當所有機器過完自己的資料之後還會做一次 All Reduce，同步總的增益。然後找一個增益最大的，給它進行分裂，不斷的執行這樣的過程。

其實這個過程最開始時，尤其是 XGboost，計算量都用在如何統計 Histogram 上，因為 Histogram 過資料的次數特別多，而且也是一個記憶體 random massege 的過程，往往對記憶體的壓力非常大。我們通常會做的最佳化是使用 GPU，因為視訊記憶體比記憶體快很多，因此樹模型可以用 GPU 加速。

目前，XGBoost、lightGBM 都支援 GPU 加速。我們也支援了用 FPGA 加速整個過程，但是我們發現 Histogram 和 All Reduce 是交替執行的，Histogram 的時間短了，All Reduce 的時間長了，就回到了剛才說到的問題：機器多了之後，發現大家都在互動，但互動的時間比統計 Histogram 的時間還長。

面臨的網路壓力及最佳化方向

1. 網路壓力大

a. 模型同步，網路延遲成為瓶頸。首先分散式 SGD Workload 主要是模型同步，尤其是同步模式時，當機器把梯度都算好，然後同一時刻，幾十個幾百個節點同時發出 push 請求，來更新引數伺服器，引數伺服器承擔的壓力是巨大的，訊息量和流量都非常大。

b. 計算加速，頻寬成為瓶頸。我們可以用計算卡加速，計算卡加速之後，網路頻寬成為了瓶頸。

c. 突發流量大。在機器學習中，主要難點是突發流量。因為它是同步完成之後，立刻做下一步，而且大家都齊刷刷的做。另一方面 profile 是非常難做的。當你跑這個任務時會發現，頻寬並沒有用完，計算也沒有用完。這是因為該計算的時候，沒有用網路頻寬，而用網路的時候沒有做計算。

2. RDMA 硬體日漸成熟

隨著 RDMA 硬體的日漸成熟，可以帶來很大的好處：

低延遲：首先 RDMA 可以做到非常低的延遲，小於 1μs。1μs 是什麼概念，如果是用傳統的 TCP/IP 的話，大概從兩個機器之間跑完整個協議棧，平均下來是 35μs 左右。
高寬頻：RDMA 可以達到非常高的頻寬，可以做到大於 100Gb/s 的速度。現在有 100G、200G 甚至要有 400G了，400G 其實已經超過了 PCIE 的頻寬，一般我們只會在交換機上看到 400G 這個數字。
繞過核心：RDMA 可以繞過核心。
遠端記憶體直接訪問：RDMA 還可以做遠端記憶體的直接訪問，可以解放 CPU。

用好這一系列的能力，可以把網路問題解決掉。

3. 傳統網路傳輸

傳統網路傳輸是從左邊發一條訊息發到右邊：

首先把樣本模型序列化，copy 到一段連續的記憶體中，形成一個完整的訊息。我們再把訊息透過 TCP 的協議棧 copy 到作業系統，作業系統再透過 TCP 協議棧，把訊息發到對面的作業系統。對面的 application 從 OS buffer 把資訊收回，收到一段連續的記憶體裡，再經過一次反序列化，生成自己的樣本模型，供後續使用。

我們可以看到，在傳統的網路傳輸中，共發生了四次 copy，且這四次 copy 是不能並行的，序列化之前也不能傳送，沒發過去時，對方也不能反序列化。由於 CPU 主頻已達瓶頸，不能無限高，這時你的延遲主要就卡在這個流程上了。

4. 第一步最佳化

第一步最佳化是我們自研的序列化框架。我們一開始把樣本模型放在記憶體池中。而這個記憶體池是多段連續的記憶體，使任何資料結構都可以變成多段連續的記憶體。這個序列化的過程，其實就是打一個標記，標明這個樣本模型要傳送，是一個 zero copy 的過程。可以瞬間拿到序列化後的資訊，由網路層透過 TCP 協議棧發到對端，對端收的時候也是不會收成一段大的記憶體，而是多段連續的記憶體。透過共享記憶體池的方式，可以減少兩次 copy，讓速度提升很多，但還是治標不治本。

5. 引入 RDMA

進而我們引入了 RDMA：

RDMA 可以直接繞過核心，透過另一種 API 直接去和網路卡做互動，能把最後一次 copy 直接省掉。所以我們引入 RDMA 之後，可以變成一個大的共享記憶體池，網路卡也有了修改操作記憶體的能力。我們只需要產生自己的樣本模型後，去戳一下網路卡，網路卡就可以傳輸到對面。對面可以直接拿來做訓練、做引數、做計算，整個流程變得非常快，吞吐也可以做到非常大。

6. 底層網路 PRPC

我這裡對比的是 BRPC 和 GRPC，BRPC 的效能是我現在看到的 RPC 當中最快的，但是因為它不支援 RDMA，所以被甩開了三到五倍。因為 GRPC 相容性的工作特別多，所以 GRPC 的效能會更差一些。這個對比並不是非常的科學，因為我們最大的收益來源是 RDMA 帶來的收益。

7. 線上預估

線上大部分時間，我們離線訓練出的模型會放在 HDFS 上，然後把模型載入到引數伺服器。會有一套 controller 去接受運維請求，引數伺服器會給我們提供引數、預估服務對外暴露打分的介面。上圖是一個最簡單的線上預估的 Workload。

8. 流式更新、加速迭代

流式更新比較複雜：

大概是使用者有請求過來，會有資料庫把使用者、物品的資訊聚合起來，再去預估打分，和剛剛最簡單的架構是一樣的。打分之後要把做好的特徵傳送到 message Queue，再實時的做 join。這時 API server 會接受兩種請求，一種是使用者請求打分，還有一種是使用者的 feedback ( 到底是贊，還是踩，還是別的什麼請求 )。這時會想辦法得到 label，透過 ID 去拼 label 和 feature，拼起來之後進一步要把特徵變成高維向量，因為變成高維向量才能進入機器學習的環節，由 Learner pull/push 去更新訓練的引數伺服器，訓練引數伺服器再以一種機制同步到預估的引數伺服器。

有了這樣的一個架構，才能把流式給跑起來，雖然可以做到秒級別的模型更新，但是這個過程非常容易出錯。

今天的分享就到這裡，謝謝大家。

Flink + 強化學習搭建實時推薦系統
2020-10-19
強化學習
吳恩達機器學習筆記 —— 17 推薦系統
2018-08-01
吳恩達機器學習筆記
推薦系統實踐學習系列（三）推薦系統冷啟動問題
2018-06-24
19期推薦系統實踐學習(二）
2020-11-27
Linux系統中常見的分散式檔案系統推薦！
2023-04-26
Linux分散式
機器學習知識體系 (強烈推薦)
2018-06-14
機器學習
分期商城實時推薦系統
2018-12-29
實時增量學習在雲音樂直播推薦系統中的實踐
2022-03-15
《機器學習：演算法原理和程式設計實踐》4：推薦系統原理
2018-07-07
機器學習演算法程式設計
機器學習必看書籍推薦
2020-12-03
機器學習
機器學習 | 基於機器學習的推薦系統客戶購買可能性預測分析
2020-12-07
機器學習
我的推薦系統學習之路
2019-02-25
實時增量學習在雲音樂直播推薦系統中的工程實踐
2022-03-23
老司機分散式書籍推薦
2020-05-25
分散式
分散式系統學習筆記
2019-04-05
分散式筆記
機器學習/深度學習書單推薦及學習方法
2018-04-12
機器學習深度學習
推薦閱讀《Tensorflow：實戰Google深度學習框架》
2019-12-17
Go深度學習框架
《Tensorflow：實戰Google深度學習框架》圖書推薦
2018-03-08
Go深度學習框架
彈性分散式深度學習系統
2020-04-18
分散式深度學習
spark機器學習：使用ALS完成商品推薦
2024-11-28
Spark機器學習
分散式系統2：分散式系統中的時鐘
2024-10-13
分散式
「實操」結合圖資料庫、圖演算法、機器學習、GNN 實現一個推薦系統
2022-12-27
資料庫演算法機器學習GNN
Spotify 每週推薦功能：基於機器學習的音樂推薦
2019-02-27
機器學習
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
分散式機器學習常用資料集
2021-11-28
分散式機器學習
《推薦系統實踐》筆記 01 推薦系統簡介
2020-11-22
筆記
推薦 | 機器學習開源專案 Top 10
2019-02-21
機器學習
機器學習平臺mahout，推薦系統演算法與架構剖析視訊教程網盤下載
2018-10-05
機器學習演算法架構
大資料的分散式機器學習的策略與原則
2022-05-10
大資料分散式機器學習
【機器學習PAI實戰】—— 玩轉人工智慧之美食推薦
2019-03-26
機器學習AI人工智慧
機器學習可視分析框架設計與實現
2021-11-06
機器學習框架
【推薦】最常用的Python機器學習及深度學習庫合集！
2022-11-23
Python機器學習深度學習
Spark推薦系統實踐
2021-01-12
Spark
推薦一個分散式單點登入框架XXL-SSO!
2023-02-22
分散式框架
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
RecSysOps：奈飛運維大型推薦系統的最佳實踐
2022-10-17
運維
機器學習判別式與生成式
2019-02-14
機器學習
分散式系統：向量時鐘
2019-02-16
分散式

分散式機器學習框架與高維實時推薦系統

相關文章