實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

AI前線發表於2019-03-04

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

作者|羅競佳
編輯 | Debra
AI 前線導讀:物流的戰火,從來都是“非傳統”的競爭者從“非傳統”的角度切入的。

更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)

1956 年,馬爾科姆·麥克萊發明了集裝箱。世界上第一支集裝箱船隊從美國揚帆起航,將當時的貨運成本從 5.83 美元 / 噸降低到 0.158 美元 / 噸。保守的運輸公司、火車運輸公司以及裝卸工人等各派實力極力反對。但是市場的手,無情地摧毀了所有的試圖抵抗時代潮流的巨頭。

1997 年,羅賓遜把在海運服務領域的“無船承運人”思想,移植到公路貨運服務領域,向“無車承運人”轉型。這一次大膽轉型,羅賓遜拋棄了自有運輸車輛,建立了整合社會運輸商的資訊系統。三年內躍居美國第一公路運輸企業。

明天的這把火,很可能燒在人工智慧。燒掉傳統物流同行的武器仍然不變:成本。我們的戰場就是中國的公路幹線物流。

中國物流的特點是大而複雜。2016 年運輸費用 6.0 萬億(絕大部分是公路),物流總成費用 11 萬億,佔 GDP 15.3%。平均運輸距離 429 公里,累計運輸量 336 億噸。在這個大市場中,存在地區性差異和季節性差異,參與其中的玩家眾多:個體司機,車隊老闆,物流公司,黃牛,3PL,工廠,連鎖集團等等。而且,中國是個全工業鏈國家,運輸品類最為齊全。運輸附加值從最高的半導體、精密機械到最大宗的煤炭、礦石、農產品,呈現強烈的地域性差異。(本文圖中的資料均來自運滿滿)

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

除了存在地區性差異,還存在巨大的季節性差異,比如煤炭、蔬菜天然就存在季節性差異,而節日,南北氣候差異更是直接影響了大宗運輸。比如 9 月開始突增的西安到西藏地區的煤炭運輸。即便從全國看來,不同季節的供需關係也是動態的。

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

那麼作為全國最大的公路物流平臺,如何在國內龐大的物流市場,應對不同空間和時間的需求呢?我們的中心抓手就是:市場供需。方向有兩個:車貨匹配,智慧排程。

公路車貨匹配的場景和特色

車貨匹配在廣義上,也是撮合交易的一種,如同電商、叫車。在平臺產品上的展現形態,也以推薦、排序、訂單匹配為主。但車貨匹配有極其獨特的特點,比如貨源是無庫存的唯一品和非標準品。唯一指的是每宗貨源幾乎各不相同,運輸方案、時間各有變化,而且一次性成交就立刻下線,完全不同於商城的熱點商品推薦原則。非標是指,貨源對車輛是有要求的,而且在不同時間、線路、種類上計價方式也不同,是非標準品。這一點也和叫車出行場景的車人匹配產生重大差異。還有一點和叫車場景不同的是,車人匹配的場景是區域性區域在較短時間視窗內滿足供需,車貨匹配則是長時間大區域內的匹配——畢竟貨運計劃可以長達一個月,車輛的行駛里程遠大於叫車場景。

完成匹配,先要解決大資料的採集和計算框架問題

車貨匹配平臺有很多資料進入的通道,比如天氣、GPS/ 北斗位置資訊、使用者 app 行為日誌、交易和支付、車輛行駛資料等等。這些資料要經過一個略顯傳統的大資料框架來處理。為了滿足實時性,還需要流式計算是 Spark streaming 元件和相關的 t+0 服務。由於滿幫的融合,整套資料方案還要同時解決開放性問題,能夠在數倉和實時策略做到互相授權、互相呼叫。因此,我們還要建設一個強大的中臺資料服務端。

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

業內有個著名的共識,按重要性排序,場景>資料>演算法。在滿幫集團的公路幹線匹配平臺上,我們建設了自己的資料架構,解決了離線和線上的資料計算和儲存問題,並且用靈活的機制保證策略的“熱插拔”——能夠隨時將測試完成的策略快速配置在生產線上,並安排適合的灰度、AB 和評估工具。

車貨匹配和智慧排程實現方法詳解

具體到車貨匹配,這個演算法場景本質是一個推薦場景,也依然可以套在 CTR、CVR 的模型上,所不同的是,我們推薦的商品是“唯一”屬性的,還要兼顧地區差異和“公平性”。公平性是這樣一種指徵:在一個時間視窗內,被撥打電話或 IM 進行聯絡的貨源,除以總貨源。叫做反饋率。這是個重要指徵,因為這個值和地區(區縣一級)的供需關係(撥打電話司機,發貨貨主)呈現強烈正相關。反饋率一旦達到一個閾值,就會在這個地區形成一種新的平衡:使用者自然流失等於或小於平臺自然流入,地面團隊可以把更多精力放在服務使用者身上,而非拉新促活。那麼對於業務指標來說,完成反饋率提升甚至比提供更有效的使用者匹配更重要——所以公平性原則的權重很大。

重點是實時部分的接入機制。傳統的小黑板方式成交,基本需要半天甚至一天的時間來實現供需雙方的撮合。大規模使用線上平臺,2016 年 24 小時反饋則達到了 60%。到了 2017 年,58% 的貨源基本在 1 小時內完成線上撮合,2018 年,20 分鐘內撮合行為發生率 40%,人貨匹配策略徹底成了一個線上實時策略。

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

在這個體系內,基本上貨源在上架瞬間,我們能準確找到它的潛在承運方,預測出會有多受歡迎(在不同的冷熱分桶裡會有多少個電話),策略是讓車 – 貨匹配,和讓過於受歡迎、有競爭力的貨源能夠犧牲部分曝光,分配給冷門的貨源,以實現公平性,達到反饋提升的效果。具體到技術細節來說,我們使用 Xgboost 來預測車 – 貨的基礎相關性,實際是一個 CTR 和 CVR 混布模型,我們在其中部署了線上實時系統,自研了一套基於 FTRL 演算法的線上學習演算法,將使用者實時的行為資料結果和 Xgboost 的離線結果共同訓練而得,點選預測的準確率達到 90%+。首頁推薦 CTR 提升了 5 倍。貨源訂單轉化率從 11% 提升到 16%。全國 24 小時反饋率則從 60% 提升到了 64%-68%。特別在低反饋地區 50 城實驗,很多地區獲得的提升更高達 15%,30 分鐘內反饋率提升 15%,12000 條路線上的司機空駛率降低 30%

第二個場景是智慧排程。這裡面有區域供需預測、價格、以及 ETA 等場景。其中最重要的是價格預測。事實上供需預測也是價格的前置條件,而價格也是引導司機進行市場化排程的重要手段。不同於滴滴和 uber 的將區域分割成六邊形,貨運領域的區域,無論時間還是空間,都更加寬闊,事實上我們在操作時是以區縣、小時來作為單位的。特別是,貨物都是非標品!這對價格的預測提出了更加困難的考驗。

原則上我們更傾向於使用一些可解釋模型,結合深度學習來進行應用。單純的 RNN 或者 LSTM 模型在處理資料時,常常無法面對突發條件,比如個別地區道路封閉、雨雪天氣等,往往會出現無法快速調整的情況。而人工干預和深度神經網路模型的結合,也常常造成模型退化。所以我們採用了一個較複雜的特徵工程模型,同時極可能分離模型與規則部分。

我們的價格預測做法如下:

將價格因素分為兩類:可變價格和不可變成本。將過路費和汽柴油費用和以車輛平均壽命的計提折舊作為線性成本。如果把線性成本認為是獨立可疊加的,再配合上後面將要介紹的非線性成本,則價格公式有:

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

因為線性成本的獨立可疊加性,可通過線性迴歸進行價格預測。鑑於我們掌握有充分的多年的全國公路幹線運輸資訊,因此可以輕易調查到過路費、汽柴油費用和車輛平均壽命。

過路費 = (出發地 – 目的地高速公路里程* 車型)* fix)

如果是庫內沒有的出發地和目的地,則按照附近核心節點城市的里程 + 出發地到節點城市的里程計算。

汽柴油價格與之類似,但是要考慮到貨物重量和車況。

非線性成本有:供需關係,天氣,節假日,里程,系統熱噪音等,經過離散化和歸一化處理。

供需關係指的是運價與成交率的關係。根據不同地區和時間,會有多個區域性波峰。為了達成最高的成交率,根據供需環境調整價格預測範圍,我們採用了 Walras-Samuelson 過程為假設,來預測平衡價格。記做:

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

因此,加入供需關係後有:

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

剩下的四個因素是:週期因素(每週,節假日,季節),系統熱噪音,裝卸費用,司機勞務費用。

各自的解決方法是:

  • 週期因素分離:主成分分析 + 傅立葉變換

  • 系統噪音:小波分析

  • 裝卸費用 / 司機勞務費用:基於時間序列的迴圈神經網路迴歸。

則有基於幹線物流大資料的運價計算公式:

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

該方法的特徵抽取和計算方法架構為:

實踐 | 運滿滿如何將機器學習應用於車貨匹配和公路幹線價格預測?

這個模型的壞處非常明顯:需要做大量人工特徵工程,而且很多資料流未經過主演算法模型。對調整模型有較大的困難。

但是多方妥協的好處在於,可以直接干預模型中的線性成本和週期模型。由於價格是個混沌模型,我們實際預測出來的只是價值,需要通過 t+0 的前線資料採集和地面不斷進行糾正和後驗調整。而且,平臺本身也在市場中不斷和傳統勢力進行博弈,有時候,為了運營活動要進行妥協。這一切都造就了當前的模型形態——一切為了實戰。

日前,我們最新的資料預測,在大部分地區,預測價格在經濟人報價或見證報價上下的 10% 內算作準確的話,當前的模型,普貨準確率 83.30%,重貨 86.37%。以此為基礎,我們在上海、南京等區域實現了熱力供需 / 價格體系,能夠直接對貨主和司機施加影響,對我們自營車隊,加盟商都提供了可以依賴的成本產出指導。至於價格,才能撬動供需關係,才能實現非自營 / 加盟車隊的排程。以上海地區為例,我們調整下的市場行為,價格波動更小,而反饋率超過了 85%,高活貨主加盟會員率遠超其他地區,幾乎達到 100%。上海等地區出發的路線成為可盈利的標杆路線。

小結

除了在車貨匹配和報價領域,我們在風控、人臉識別、排程等各種場景下都做了許多大膽嘗試。未來隨著運滿滿平臺在物流領域的不斷深入,通過機器學習和深度神經網路技術來提升效率,降低成本,是非常有前景的話題。特別是自動駕駛技術的進場,我們希望能通過更有力的排程手段,來實現更美好的行業前景。

作者介紹

羅競佳,滿幫集團運滿滿公司大資料部負責人。演算法和資料專家,自然語言和機器學習專家。先後在中科院計算所網路儲存實驗室、百度無線搜尋等供職。在演算法和推薦上參與及擁有“與查詢序列相對應的搜尋建議”,“搜尋候選詞的推薦方法”等多項專利。2013、2014 的百度世界大會上的“輕應用”、“直達號”等專案的檢索策略架構師。16 年領導百度糯米 POI 策略組,在反作弊專案中偵測數千萬異常流水,挽回巨大損失;17 年領導開發門店 POI 素材寫作工具,實現基於 fasttext 和 LSTM 的門店機器寫作,月均產出 5 萬 + 圖文內容和門店介紹文章,完成了內容閉環。

相關文章