專訪滴滴演算法大賽冠軍團隊:迴歸樹模型取勝
7月20日,滴滴出行首屆全球Di-Tech演算法大賽正式落幕,由三名成員組成的中國團隊“inferrrr”奪得冠軍並收穫10萬美元獎金,該團隊近日接受了CSDN記者的採訪,介紹其大賽中使用的方法和比賽心得。
背景
本次大賽賽題為“解決出行行業供需預測問題”:即對於特定城市的特定區域給定前三十分鐘訂單相關資料(包括數月的實時訂單,區域POI, 交通訊息,天氣資料等),參賽團隊通過演算法來預測該地區未來十分鐘的供需差值。所有參賽選手基於滴滴出行開放的真實出行資料進行演算法PK,最終所預測結果與真實情況差距最小者獲得本次大賽冠軍。
截至目前,滴滴出行平臺日均需處理1400萬訂單,需要分析的資料量達到70TB,路徑規劃超過90億次。面對如此龐雜的資料,保證資料分析及相關應用的穩定,實現高頻出行下的運力均衡,供需預測是其中的一個關鍵而複雜的問題。
inferrrr團隊由南京理工大學李翔、葉啟威、柯國霖三人組成,該團隊在特徵工程方面具有鮮明創新性,高階特徵較精細,他們對傳統的GBDT演算法做出改進,並結合業務和產品特性,通過與司機交流等多種方式完善方案。滴滴研究院副院長葉傑平認為,該團隊對XGBOOST模型進行了一定的創新改造,在速度和MEMORY上體現出良好效果。
採訪實錄
CSDN:在參加這次挑戰之前你們都有什麼專業背景?
答: 我們都是計算機專業,並從事機器學習/深度學習相關研究的學生。
CSDN:有沒有什麼領域知識助你們成功?
答: 主要是計算機、機器學習和統計學的知識幫助我們。
CSDN:是什麼因素使得你們決定參加這次比賽?
答:一是獎金很吸引人,二是我們對模型有著新的理解,想嘗試一下實際應用的效果。
CSDN:能否概括你們採用的方法,你們取勝的那個模型?
答: 我們嘗試過傳統的邏輯迴歸模型,最新的深度學習模型,以及最後使用的迴歸樹模型。
“迴歸/決策樹”模型是一個十分易於理解的模型,該模型根據不同的特徵對資料進行分類(迴歸)。在訓練過程中,嘗試的找到每一次能夠對資料進行分類(迴歸)的最好的特徵。並在此基礎上,反覆迭代,構建多棵樹用於最終結果的預測。
我們針對於這次的任務和資料,對於現有的方式有一些改進,使得能夠得到更準確的結果。
CSDN:深度學習模型的實際效果如何?
答: 由於資料量還不是非常足夠,同時深度學習對特徵的對齊處理要求很高,所以在我們的實驗中還未能超越決策/迴歸樹模型。
CSDN:在資料方面你們遇到過哪些主要困難?
答: 部分維度的資料因為統計缺陷,使用起來效果不佳。另外資料量還可以進一步加大。
CSDN:在觀察資料時你們最重要的發現是什麼?
答: 絕大多數乘客的出行,都有固定的模式(時間、地點),同時工作日和週末的模式也有很明顯的不同。
CSDN:有沒有某一發現讓你們感到很驚訝?
答: 比如說在資料分析的過程中有一些讓我們感到很難理解的結果,
例如我們發現每天下午三點(不是早晚高峰)存在一個較大的供需差值。通過和司機的討論,該差值來源於:
- 司機在這個點的疲憊;
- 司機收到的激勵不足等。
CSDN:你們對資料做了什麼樣的預處理?使用了什麼工具?
答: 做了一些雜湊的預處理從而提升後續特徵的提取速度以及降低記憶體使用。我們全程使用我們團隊為本次比賽開發的工具。
CSDN:進入資料科學領域,你們有什麼心得?
答: 一切從資料本身,從業務邏輯出發去分析問題,尋找關聯。模型、演算法和經驗都是工具。
CCAI 2016中國人工智慧大會將於8月26-27日在京舉行,AAAI主席,多位院士,MIT、微軟、大疆、百度、阿里、滴滴專家領銜全球技術領袖和產業先鋒打造國內人工智慧前沿平臺,7+重磅大主題報告,4大專題論壇,1000+高質量參會嘉賓,探討人機互動、機器學習、模式識別學術前沿及產業實戰。門票限時八折優惠中。
相關文章
- 成功專案團隊角色模型——Belbin團隊角色模型(轉)模型
- 迴歸樹(Regression Trees)模型的優缺點模型
- 敏捷團隊中,專家能勝過通才麼?敏捷
- 機器學習-樹迴歸機器學習
- 首屆AIOps挑戰賽——冠軍LogicMonitor-AI團隊方案分享AI
- 迴歸模型的演算法效能評價模型演算法
- B站遊戲涉足MOBA賽道,專訪《重構:阿塔提斯》製作團隊遊戲
- 樹迴歸|理論與演算法實現演算法
- ECCV 2020 GigaVision挑戰賽雙賽道冠軍DeepBlueAI團隊技術分享AI
- 迴歸演算法全解析!一文讀懂機器學習中的迴歸模型演算法機器學習模型
- 機器學習識別植物疾病,這是CVPR挑戰賽冠軍團隊的解決方案機器學習
- 第十二篇:深入學習高階非線性迴歸演算法 --- 樹迴歸系列演算法演算法
- 邏輯迴歸模型邏輯迴歸模型
- 百度,關於技術理想與對未來的期待丨首屆搜尋技術創新挑戰賽 x 冠軍團隊專訪
- 《Spark機器學習》筆記——Spark迴歸模型(最小二乘迴歸、決策樹迴歸,模型效能評估、目標變數變換、引數調優)Spark機器學習筆記模型變數
- 百度視覺團隊獲世界最大規模目標檢測競賽冠軍視覺
- 決策樹、邏輯迴歸、線性迴歸使用時注意事項以及模型過擬合策略邏輯迴歸模型
- 《黑神話:悟空》動捕團隊專訪:聊聊國內動捕團隊的現狀
- 成功專案團隊的DISC系統模型(轉)模型
- 迴歸樹模型 0基礎小白也能懂(附程式碼)模型
- 專訪《畫境長恨歌》團隊:五名遊戲新人,四卷畫紙,夢迴唐朝遊戲
- 吳恩達團隊提出倒數計時迴歸模型:用AI技術預測病患死亡時間吳恩達模型AI
- 多元線性迴歸模型模型
- 06_邏輯迴歸演算法和最大熵模型邏輯迴歸演算法熵模型
- [DataAnalysis]機器學習演算法——線性模型(邏輯迴歸+LDA)機器學習演算法模型邏輯迴歸LDA
- 通用機器學習演算法:線性迴歸+決策樹+Xgboost機器學習演算法
- 迴歸問題知識樹
- 團隊專案
- 全球1800多支隊伍參賽 阿里媽媽國際演算法大賽受熱捧阿里演算法
- 騰訊Angel PowerFL聯合專案團隊斬獲iDASH-2021國際隱私計算大賽差分隱私賽道冠軍
- PRML 迴歸的線性模型模型
- 迴歸模型-評估指標模型指標
- 冰洲石團隊摘得藥物靶點選擇性預測賽冠軍,AI加快藥物研發速率AI
- 團隊專案一
- 【製作人訪談】《GT賽車7》團隊分享賽道還原製作和場景設計
- 演算法金 | 一個強大的演算法模型,多項式迴歸!!演算法模型
- 邏輯迴歸演算法邏輯迴歸演算法
- 線性迴歸演算法演算法