專訪滴滴演算法大賽冠軍團隊:迴歸樹模型取勝

周建丁發表於2016-07-27

7月20日,滴滴出行首屆全球Di-Tech演算法大賽正式落幕,由三名成員組成的中國團隊“inferrrr”奪得冠軍並收穫10萬美元獎金,該團隊近日接受了CSDN記者的採訪,介紹其大賽中使用的方法和比賽心得。

背景

本次大賽賽題為“解決出行行業供需預測問題”:即對於特定城市的特定區域給定前三十分鐘訂單相關資料(包括數月的實時訂單,區域POI, 交通訊息,天氣資料等),參賽團隊通過演算法來預測該地區未來十分鐘的供需差值。所有參賽選手基於滴滴出行開放的真實出行資料進行演算法PK,最終所預測結果與真實情況差距最小者獲得本次大賽冠軍。

截至目前,滴滴出行平臺日均需處理1400萬訂單,需要分析的資料量達到70TB,路徑規劃超過90億次。面對如此龐雜的資料,保證資料分析及相關應用的穩定,實現高頻出行下的運力均衡,供需預測是其中的一個關鍵而複雜的問題。

inferrrr團隊由南京理工大學李翔、葉啟威、柯國霖三人組成,該團隊在特徵工程方面具有鮮明創新性,高階特徵較精細,他們對傳統的GBDT演算法做出改進,並結合業務和產品特性,通過與司機交流等多種方式完善方案。滴滴研究院副院長葉傑平認為,該團隊對XGBOOST模型進行了一定的創新改造,在速度和MEMORY上體現出良好效果。

採訪實錄

CSDN:在參加這次挑戰之前你們都有什麼專業背景?

答: 我們都是計算機專業,並從事機器學習/深度學習相關研究的學生。

CSDN:有沒有什麼領域知識助你們成功?

答: 主要是計算機、機器學習和統計學的知識幫助我們。

CSDN:是什麼因素使得你們決定參加這次比賽?

答:一是獎金很吸引人,二是我們對模型有著新的理解,想嘗試一下實際應用的效果。

CSDN:能否概括你們採用的方法,你們取勝的那個模型?

答: 我們嘗試過傳統的邏輯迴歸模型,最新的深度學習模型,以及最後使用的迴歸樹模型。

“迴歸/決策樹”模型是一個十分易於理解的模型,該模型根據不同的特徵對資料進行分類(迴歸)。在訓練過程中,嘗試的找到每一次能夠對資料進行分類(迴歸)的最好的特徵。並在此基礎上,反覆迭代,構建多棵樹用於最終結果的預測。

我們針對於這次的任務和資料,對於現有的方式有一些改進,使得能夠得到更準確的結果。

CSDN:深度學習模型的實際效果如何?

答: 由於資料量還不是非常足夠,同時深度學習對特徵的對齊處理要求很高,所以在我們的實驗中還未能超越決策/迴歸樹模型。

CSDN:在資料方面你們遇到過哪些主要困難?

答: 部分維度的資料因為統計缺陷,使用起來效果不佳。另外資料量還可以進一步加大。

CSDN:在觀察資料時你們最重要的發現是什麼?

答: 絕大多數乘客的出行,都有固定的模式(時間、地點),同時工作日和週末的模式也有很明顯的不同。

CSDN:有沒有某一發現讓你們感到很驚訝?

答: 比如說在資料分析的過程中有一些讓我們感到很難理解的結果,

例如我們發現每天下午三點(不是早晚高峰)存在一個較大的供需差值。通過和司機的討論,該差值來源於:

  1. 司機在這個點的疲憊;
  2. 司機收到的激勵不足等。

CSDN:你們對資料做了什麼樣的預處理?使用了什麼工具?

答: 做了一些雜湊的預處理從而提升後續特徵的提取速度以及降低記憶體使用。我們全程使用我們團隊為本次比賽開發的工具。

CSDN:進入資料科學領域,你們有什麼心得?

答: 一切從資料本身,從業務邏輯出發去分析問題,尋找關聯。模型、演算法和經驗都是工具。


CCAI 2016中國人工智慧大會將於8月26-27日在京舉行,AAAI主席,多位院士,MIT、微軟、大疆、百度、阿里、滴滴專家領銜全球技術領袖和產業先鋒打造國內人工智慧前沿平臺,7+重磅大主題報告,4大專題論壇,1000+高質量參會嘉賓,探討人機互動、機器學習、模式識別學術前沿及產業實戰。門票限時八折優惠中

圖片描述

相關文章