訓練效能提升2-4倍!京東攜SparkGBM成果亮相Spark Summit 2018

AI前線發表於2018-06-13
訓練效能提升2-4倍!京東攜SparkGBM成果亮相Spark Summit 2018
編輯 | Natalie
AI 前線導讀: 一年一度的 Spark Summit 2018 近日如期在美國舊金山舉行,今年的主題是 Spark+AI。作為大資料領域的頂級會議,Spark Summit 2018 吸引了全球近 2000 位技術大咖參會。來自京東智慧廣告實驗室(JD Intelligent Advertising Lab,以下簡稱“JDIAL”)的資深研究員鄭瑞峰做了主題分享,重點闡釋了京東如何利用並改進 Spark 計算框架,從而提升營銷效果。

更多優質內容請關注微信公眾號“AI 前線”(ID:ai-front)

作為中國線上線下最大的零售商,京東擁有超過 3 億的活躍使用者,數十億的商品。因此海量資料的高效處理和使用者資料的深度洞察是京東面臨的重要課題。“使用者分層、交叉營銷、人群定向是我們在資料應用領域的三個重要場景”,鄭瑞峰在演講時表示:“首先在使用者分層上,京東結合網際網路時代營銷學理論與京東多渠道海量資料自身特點,首創了使用者 4A 成長模型,將使用者劃分為Awareness、Appeal、Action 和 Advocacy 四種狀態,通過我們打造的智贏服務,更好地幫助廣告主進行效果分析和人群資產沉澱;其次京東基於 Spark 的模式挖掘演算法,分析出最佳的交叉營銷建議,並且針對現有演算法的缺點,增強了 Lift 指標的計算和通用規則模式的挖掘;最後基於京東海量資料進行消費者購買預測,詳細描述了召回 - 排序 - 投放的資料流程”。

在不斷實踐的同時,JDIAL 還對 Spark 做出了諸多深度改進,總結了一系列有價值的經驗。主要包括:重構了諸多已有演算法以支援 Multi-Column Parallelization,在輸入列較多的情況下,執行效率提升了 10 倍以上,這些改進已被社群採納;另外通過全面比較 RDD 和 DataFrame/Dataset,首次明確指出 DataFrame/Dataset 並不是 Silver Bullet,在某些場景下其效率反而弱於 RDD,並進一步詳細分析了兩者各自的適用場景。

與此同時,鄭瑞峰指出了 MLlib 機器學習演算法庫三個亟待改進的方面:

  • 第一,演算法需要支援 Warm Start,這將大大提高 Convergence Ratio,支援 Continuous Training,並將增強解的穩定性(特別是在非凸問題中);

  • 第二,演算法需要支援 Callback,這可支援 Model Checkpointing 從而減小非可預見性 Crush 對長時間訓練的影響,並支援 Early Stopping 從而避免過擬合和發散時浪費的計算開銷;

  • 第三,演算法需要支援 Compact Numeric Format,機器學習演算法的容錯性在大部分情況並不需要以雙精度形式儲存資料和模型,單精度甚至半精度往往足以滿足需求,這將大大減少演算法的記憶體開銷並提高計算效率。

據鄭瑞峰介紹,在 ALS 演算法上,JDIAL 自主研發了支援 Warm Start 的版本,將訓練效率提升 40% 左右,並通過支援 Model checkpointing 提升了執行的穩定性。在機器學習的核心演算法 -GBM 演算法上,JDIAL 建立並開源了新專案 SparkGBM,其完全相容 MLlib Pipeline,融合了 Spark-GBT、XGBoost 和 LightGBM 各家之長。SparkGBM 採用原生 Spark 作為底層計算引擎,有效避免了 XGboost 和 LightGBM 等異構 ML 框架帶來的資料在不同框架下的 Double Caching 問題、難以對異構框架進行資源監控、需要額外的部署維護成本等一系列問題。SparkGBM 同時也包含了一系列效率優化的努力,如針對海量資料設計了 Partition-Based Sampling 以提升取樣效率,根據資料情況自動選擇最佳的 Histogram 儲存格式,採用 Histogram Subtraction 技術減少通訊開銷等,通過這一系列的優化,使 SparkGBM 的訓練效率達到 Spark-GBT 的 2~4 倍

關於京東智慧廣告實驗室:

京東智慧廣告實驗室 (JDIAL) 隸屬京東商業提升事業部,主要從事智慧廣告相關的基礎研究和應用研究,研究範疇涵蓋視訊影象、NLP、大規模機器學習、深度學習、推薦技術、廣告機制等多個領域。實驗室成員包括有學術能力的碩士、博士研究生,以及經由實驗室招募的優秀學者、在行業內和學術圈內有技術影響力的科學家。目前京東智慧廣告實驗室累計擁有研究成果幾十項,其中多個專案榮獲京東集團技術創新獎項,多篇論文被國內外知名學術機構收錄。


相關文章