摩拜單車背後的人工智慧二三事

AI前線發表於2019-01-15

本文由 【AI前線】原創,原文連結:t.cn/RHocRmj


採訪&撰稿|Natalie

編輯|Emily

共享單車在不到一年的時間裡成為城市一道彩色風景線,在便利市民短途出行的同時,單車的運營管理也日漸成為一個巨大的挑戰。

我們每天都能見到大量的共享單車,有的地方共享單車成排投放,有的地方卻看不到這些小車的身影。對於平臺來說,在哪裡投放共享單車、投放多少共享單車是一個值得研究的問題。如果投放車輛的地方沒人需要,那投放效果就會大打折扣;如果人們在需要的地方找不到車,平臺也會蒙受損失。

但是怎樣確定哪裡是合適的投放地點呢?單車被騎走到城市的各個角落後,如何排程才能保證它們能被更多人騎到?每天都有成千上萬的故障車輛圖片被上報給平臺,其中的真假又如何分辨?這些問題的解決其實都離不開人工智慧。

摩拜單車首席資料科學家尹大朏將在全球人工智慧與機器學習技術大會(AICon)上分享《摩拜如何使用人工智慧實現單車精細化運營》,為大家介紹摩拜單車如何利用大資料和人工智慧技術解決運營中出現的違停、潮汐現象,以及在優化排程方面的最新探索。會前 InfoQ 對尹大朏進行了獨家專訪,帶領讀者一窺人工智慧在摩拜落地應用的二三事。


從學術界到工業界

尹大朏在北大獲取博士學位後繼續在清華大學完成了博士後研究,經過一段比較長的學術研究生涯之後進入了工業界。在加入摩拜之前,他分別在 Esri 和 Dhgate 任職產品工程師和高階資料工程師。對他來說,在學術界做研究和在工業界做產品最大的差異就是速度,工業界對應用的成果轉化速度的要求高於學術界,學術界對理論的證明更加看重。當研究人員從學術界轉入業界,角色轉換是必須經歷的過程,尹大朏對此給出的建議是“要 Move Fast”,讀書多往往糾結於細節,追求完美;而商場如戰場,對時間要求更加緊迫;在學術界可以“十年磨一劍”,在工業界就需要“小步快跑”。

加入摩拜後,尹大朏從 0 到 1 組建了摩拜的資料團隊。在團隊組建的過程中尹大朏也遇到了一些挑戰。新員工來自各個地方,有從成熟的大公司跳槽過來的,也有剛畢業的學生,要讓他們融入公司創業環境,並且學會配合、形成戰鬥力,是較大的挑戰。尹大朏的方法是多創造一些機會,讓大家多在一起 group study,共同成長。

如今摩拜的資料團隊日趨成熟,團隊包括了演算法及人工智慧、商業智慧分析、視覺化分析、資料服務及資料架構組。團隊產生的報表、演算法和資料服務支撐著運營、財務、產品、市場、客服及政務等各個業務線,以數字驅動的方式加速公司業務發展。


人工智慧落地摩拜單車

尹大朏告訴我們,摩拜很早就在人工智慧技術上有所佈局。在有了一定的資料積累之後,摩拜開始有選擇地使用一些主流的 AI 技術來做預測和分類的工作。

目前主流的 AI 技術應用往往應用於影象聲音處理、自然語言處理、推薦系統和無人駕駛等領域,在自行車出行領域的 AI 技術應用並不算多,這也是摩拜在共享單車業務場景下應用人工智慧技術遇到的一大挑戰。這就要求研究人員能夠基於對單車領域的理解,嫁接已有的 AI 技術。尹大朏將使用 DNN 的思想做供需預測看作是“一個 idea comes from idea 的過程”,摩拜借鑑了微軟亞洲研究院鄭宇老師的一篇關於環境汙染預測的文章,論文使用了 ResNet(DNN 的一個變種)來做大氣汙染物擴散預測。而共享單車的運營場景同樣也是要解決空間上的預測問題,因此這篇論文就成了啟發摩拜資料科學團隊的靈感來源,團隊基於 ResNet 做出來了一些工作。

目前人工智慧在摩拜主要的應用場景包括:

  • 基於深度神經網路的供需平衡預測:供需狀況的預測是排程工作的基礎,摩拜的方法是把空間劃分為若干網格,把每個網格里面的車輛數、歷史的訂單量和天氣預報資訊結合起來,利用 DNN 來訓練,得到未來某個時刻的騎行量預測值。
  • 利用圖片識別等技術輔助客服提高工作效率:摩拜鼓勵使用者及時舉報不文明的用車行為,為此在 APP 中設定了舉報按鈕,使用者可以拍下違停的圖片,上傳給客服人員。對這些被舉報的使用者,如果連續舉報多次,摩拜會給他們發簡訊警告。但問題是每天客服會收到成千上萬張圖片,甚至很多圖片是重複的,因為同一輛車被很多使用者舉報,這樣會給客服人員造成很大的負擔。因此摩拜使用深度學習技術對圖片進行識別,判斷圖片中是否是違停在小區的自行車。現在摩拜的客服已經很少直接閱讀圖片,大概只有不到 1% 的圖片因為機器難以判別需要人工干預,剩下 99% 完全可以用機器來識別,從而大大降低了客服的工作量。


“魔方”人工智慧平臺的架構及演進

摩拜的大資料人工智慧平臺又名“魔方”,“魔方”的核心應用之一是對共享單車全天候供需做出精準預測,為車輛投放、排程和運維提供智慧指引。

“魔方”的整體架構主要參照主流網際網路公司架構,以 Hadoop 作為基礎檔案儲存,Spark、Storm、Flink 做流式計算,TensorFlow 做機器學習的模型訓練和預測。

摩拜的資料平臺架構基本上是伴隨著摩拜的業務擴張逐步演進的。最初摩拜所有的資料包表都建立在 MySQL 這樣的關係型資料庫上,隨著業務極速擴張,資料量也呈幾何級上升,查詢非常慢,於是摩拜建立了基於 Hadoop 生態體系的資料平臺,過渡到使用 Hive/Impala 進行大量資料的查詢。後來業務持續發展,摩拜陸續使用了 Kylin 做 OLAP,加入了 Spark/Storm 流式資料分析進行單車狀態和實時開鎖情況的監控,並引入了 Tensor Flow 做線上的紅包車金額制定等機器學習應用。

目前“魔方”平臺進行投放量的預測和實時排程主要基於車輛資料、歷史訂單資料、天氣和節假日資訊等資料。這些資訊大部分通過摩拜的系統獲得,天氣資訊則來自網上公開渠道。其中車輛資訊是每個網格里面的存量單車,這是摩拜進行預測的基礎,而歷史訂單提供過去的趨勢,天氣則是對訂單影響最大的隨機事件,這些資訊都被融合在模型中作為預測變數。


單車出行資料不止於運營

目前摩拜獲取到的海量共享單車資料除了單車的位置和騎行路線資訊,還有大量來自摩拜單車智慧鎖的車鎖狀態資訊,以及伺服器產生的大量日誌。

尹大朏向我們介紹了幾個運營之外的資料應用案例:

  • 北京市最近獲批在西二旗和中關村之間建設一條自行車高速道路,在這條道路的規劃階段,摩拜貢獻了部分軌跡資料供城市規劃師作為該條道路選址的參考;
  • 廈門在建設地鐵的時候希望用真實的出行資料作為修建新線路的指導,找出出行量較大的地區以便進行地鐵選線,摩拜的單車出行資料恰好可以滿足需求;
  • 摩拜和世界銀行合作進行的城市規劃研究發現:長期以來城市建設規劃沿襲的 TOD(Transit Oriented Design)理論強調的方法論是讓建設集中在地鐵樞紐 800 米範圍內,而我們的實際軌跡顯示大家騎自行車出行的範圍可以擴充套件到 3-5 公里。如此一來就擴充套件了傳統 TOD 理論的出行範圍,使得建設不會過分集中在地鐵周邊,對今後的城市建設會有比較大的影響。

摩拜單車目前已經部署到國內很多城市,甚至也進入了國外,不同城市、不同區域的共享單車資料有很多不一樣的地方,尹大朏也跟我們分享了一個例子。

摩拜單車背後的人工智慧二三事

上面的圖是北京上地和廣州西村地鐵站周邊地區的工作日和週末出行模式,可以看到上地是典型的工作區,大家上班很規律,出行基本集中在上下班,週末沒有很多騎行,而廣州西村地區就很不同,平時和週末都有很多騎行。這些特徵反映了兩地的經濟生活方式不同。


未來展望

未來摩拜將嘗試把魔方建設成為一個綜合的智慧出行平臺,摩拜也會持續關注 AI 方面的最新進展,包括 GAN(對抗生成網路)等方面的工作,同時還會繼續加強軌跡挖掘、個性化推薦等方面的研究,使摩拜的業務更加完善。


採訪嘉賓介紹

尹大朏,摩拜單車資料科學家。他從 0 到 1 組建了摩拜的資料團隊,目前該團隊包括了演算法及人工智慧、商業智慧分析、視覺化分析、資料服務及資料架構組。團隊產生的報表、演算法和資料服務支撐著運營、財務、產品、市場、客服及政務等各個業務線,幫助公司以資料驅動的方式高速發展。在加入摩拜之前,他在 Esri 和 Dhgate 分別任職產品工程師和高階資料工程師。更早的時候,他在北大獲取博士學位後繼續在清華大學完成博士後研究。

關注後回覆「AI」你懂的


相關文章