從學術角度論Uber的人工智慧預測醉酒專利

資料猿發表於2018-06-21
640

【資料猿導讀】Uber這套預測醉酒的人工智慧專利模型,其架構包括所需求的資料、演算法和結果,資料方面主要包括使用者請求資料、使用者當前活動資料、使用者特徵資料、行程特徵等資料


作者 | 傅志華

官網 | www.datayuan.cn

微信公眾號ID | datayuancn


近日公佈的美國專利申請記錄顯示,Uber(優步,類似滴滴叫車)申請了一個非常有意思的專利,即用人工智慧來識別醉酒乘客。Uber 申請的這項專利名為“Predicting User State Using Machine Learning”,即“以機器學習預測使用者狀態”,由 Uber 的信任和安全團隊提交。在專利描述中,Uber稱他們將研發一個協調系統,該系統使用關於過去在Uber上的行程和行為資料來訓練計算機預測提交行程請求的使用者的狀態(原文提到:The system uses the data about past trips to train a computer model to predict a user state of a user submitting a trip request)。


簡單來說,Uber會根據使用者使用 Uber App 的方式來識別異常行為,預測使用者是否處於醉酒(不清醒)狀態。比如,假設週末的凌晨 1 點,你站在酒吧街區域叫車,輸入目的地時緩慢且多次出錯,跟平常工作日的雷厲風行完全不一樣,那麼系統將可以判定你處於不清醒狀態。


640


當Uber的這套系統識別出“不清醒狀態”,這個系統將因此調整 Uber 所提供的服務。比如為這些使用者安排經過培訓、有相關經驗的司機,並提前告知司機乘客的狀態。另外,還可以將上下車地點改在光線較足的地方,並關閉拼車功能保證安全等。而Uber在專利描述中稱,希望通過這個系統,可以減少人身安全或嘴角、衝突等讓人不快的乘車體驗。但這個模型如果使用不當,也會產生負面的影響,其中一個擔心是人工智慧可能會被部分居心叵測的司機所利用。


資料顯示,過去 4 年裡在美國至少有 103 名 Uber 司機被指控對乘客進行性侵犯,其中不少受害者就是在醉酒情況下乘車的。目前,這項專利還未投入使用。


本文不打算從倫理道德來分析這個專利的影響,畢竟這個專利還沒有正式投入使用,本文只是從學術角度來研究模型實現的原理。下圖是整個模型的架構,包括所需求的資料、演算法和結果。


640


模型整體的架構如下:當使用者輸入資訊將乘坐請求(Request data,圖中1)生成到使用者裝置(即手機)中時,系統同時收集關於使用者裝置上的使用者活動的資訊(Current User Activity Data,圖中2),系統同時同步已經自動生成好的使用者畫像資料(User Profile,圖中3)。基礎資料準好了以後,並進入特徵工程模組,即系統會基於資料使用者畫像資料(圖中3)和當前使用者活動資料(圖中2)構建使用者特徵資料(圖中4),同時實時收集行程特徵資料(Trip Features,圖中5)。使用者特徵資料和行程特徵資料是特徵工程中重要的兩類模型輸入(Input)。


我們重點分析重要的資料來源:


1、“使用者請求資料”和“使用者當前活動資料”。“使用者請求資料”是指使用者在uber的箇中使用請求資料,這些資料生成“使用者當前活動資料”。“使用者當前活動資料”指使用者對手機使用者裝置的輸入,以及使用者裝置本身的移動行為。使用者當前活動資料可以包括裝置處理特性、介面互動特性和文字輸入特性資料。這些資料可能會通過手機中的運動感測器、裝置角度感測器、GPS和內建在螢幕中的觸控感測器等方式來收集。如裝置處理特性資料,包括使用者在請求提交時或接近該請求時的速度、使用者在請求時保持使用者裝置的角度、裝置移動速度。文字輸入特性資料如使用者輸入文字的準確性、選擇搜尋結果之前被刪除的字元數等行為資料。介面互動特性資料如在生成uber行程單請求時,使用者可以與多個使用者介面互動,例如設定行程的起始點位置、選擇行程的設定、輸入搜尋字串以確定行程的目的地等等;系統會採集使用者與這些介面互動的速度(例如,在特定輸入螢幕上的平均時間、互動之間的時間),以及使用者與搜尋查詢介面的互動速度。


2、“使用者特徵資料”,通過統計和分析“使用者畫像資料”和“當前使用者活動資料”而得來。“使用者特徵資料”是特徵工程的一個重要部分,目標是構建更有預測能力的變數。比如文字輸入速度以及文字輸入速度的變化率、使用者平均步行速度以及使用者平均步行速度的變化率、點選行為速度和點選行為速度的變化率等等。例如,使用者平均步行速度是指在過去的一段時間內步行速度的平均值;而使用者平均步行速度的變化率,是指使用者在當前一段時間內的速度與使用者在過去一段時間內的平均步行速度的比值。


3、“行程特徵資料”。“行程特徵資料”是從使用者請求資料提取出行特徵的資料,例如與請求的位置、地理和時間特徵。行程特徵可以包括使用者位置、天氣狀況、一天的時間和請求提交是在星期幾。某些行程特徵由系統確定,而不是由請求資料確定,例如時間和星期幾、天氣條件等。


“使用者特徵資料”和“行程特徵資料”都是特徵工程的兩類重要資料。特徵工程中,構建這兩類資料目標是構建更有預測能力的變數。我們利用這兩類資料的歷史資料,通過監督機器學習模型來對資料訓練建模。所謂監管學習就是給定一組學習樣本,每個樣本都有一組屬性和一個類別,這些類別是事先確定的,那麼通過學習得到一個分類器,這個分類器能夠對新出現的物件給出正確的分類,這樣的機器學習就被稱之為監督學習。


Uber的專利中提到核心演算法主要是分類演算法如決策樹、支援向量機或神經網路。使用者狀態預測模型一旦建立了並通過相關的模型檢驗後,即可以對實時的使用者資料進行分析,並利用模型預測使用者的狀態是否為“清醒”狀態。


由於篇幅關係,本文對Uber專利提到的三個演算法進行原理性的介紹:


1、決策樹(decision tree)是一類常見的機器學習方法,目的是為了產生一棵泛化能力強,即處理未見示例能力強的決策樹。決策樹學習是採用自頂向下的遞迴方法,其基本思想是以資訊熵為度量構造一棵熵值下降最快的樹;


2、支援向量機。支援向量機(Support Vector Machine,SVM)是一個常見的分類器,核心思路是通過構造分割面將資料進行分離,一個支援向量機構造一個超平面,或在高或無限維空間,其可以用於分類;


3、神經網路。神經網路的作用本質上也是一個分類器,人工神經網路是一種模仿動物神經網路行為特徵,進行分散式並行資訊處理的演算法數學模型。人工神經網路由大量的節點(或稱神經元)之間相互聯接構成,每個節點代表一種特定的輸出函式,稱為激勵函式(activation function)。每兩個節點間的連線都代表一個對於通過該連線訊號的加權值,稱之為權重,這相當於人工神經網路的記憶。目前神經網路演算法已經有幾十種,最近流行的深度學習也屬於神經網路的發展方向。


我們用一個簡單的示例來更直觀的闡述上述過程。在uber的專利文獻中提到一個例子,見以下表“使用者狀態預測模型資料示例”。


640


表格中,每一行代表一條使用者記錄資料。第一列是加密後的使用者ID,用來唯一區分每個使用者。第二列至第六列是使用者特徵資料(User Features),包括使用者文字的輸入精度、使用者資料輸入速度、按鈕點選行為、裝置的角度、步行速度。第七至第八列是“行程特徵資料(Trip Features)”,包括位置、時間和星期。值得大家注意的是,使用者特徵資料和行程特徵資料只是列了部分變數,並沒有列全,只是為了舉例方便。最後一列“異常狀態識別”是通過模型預測的使用者異常狀態,1代表異常,0代表正常。正如上文提到,使用者的“異常狀態預識別”是通過基於使用者特徵資料(User Features)和行程特徵資料(Trip Features)進行訓練,通過有監督學習的機器學習演算法(上文提到的三種演算法),建立“使用者狀態識別預測模型”計算得出。


從預測結果我們可以看到,第一列使用者(使用者ID為28HQ5)為預測為異常使用者,即醉酒的可能性很大。第二列使用者(使用者ID為B24L9)為預測正常使用者。這兩位使用者的差異在於資料輸入精準度(異常使用者精準度更低)、按鈕點選次數(異常使用者點選次數更多)、裝置角度(異常使用者角度更傾斜)、位置的差異、時間(異常使用者在凌晨兩點多叫車)、星期的差異(異常使用者在週末)。從典型的使用者分析也能看到正常和異常使用者的使用者特徵資料和行程特徵資料有顯著的差異。


Uber通過其APP收集到的資料,利用機器學習演算法實現的是否處於醉酒狀態的預測,在其他領域也有非常多的應用場景,包括保險、交通安全、金融、安防等領域。在保險領域,如果我們瞭解到某個使用者經常酗酒,那麼該使用者很可能出險的概率就高,對於保險公司來說,並不是最優質的客戶;在交通安全領域,暢想一下,相關的交通管理機構聯合大型網際網路企業做使用者不清醒狀態的預測,如果某使用者醉酒的可能性很大,那麼可以通過網際網路應用來提醒該使用者酒後不要駕駛;在金融領域,以小額貸款為例,如果發現某個使用者老是醉酒,其徵信得分應該有所降低,貸款稽核也應該更加慎重。
 

參考專利文獻:


Predicting User State Using MachineLearning,Poeppel; Scott; (Pittsburgh, PA) ; Letwin; Nicholas G.; (Pittsburgh,PA) ; Kelly; Sean J.; (Pittsburgh, PA), Uber Technologies, Inc


專利文獻連結:


http://appft.uspto.gov/netacgi/nph-Parser Sect1=PTO2&Sect2=HITOFF&u=%2Fnetahtml%2FPTO%2Fsearch-adv.html&r=3&p=1&f=G&l=50&d=PG01&S1=uber.AANM.&OS=aanm/uber&RS=AANM/uber


關於作者


640


傅志華,資料猿專欄專家,中國資訊協會大資料分會理事,北京航空航天大學軟體學院大資料專業特聘教授,中科院管理學院MBA企業導師、首都經貿大學統計學兼職教授、研究生導師。曾為360公司大資料中心總經理以及騰訊社交網路事業群資料中心總監以及騰訊公司資料協會會長,在騰訊前為網際網路資料分析公司DCCI網際網路資料中心副總裁。目前任龍湖集團AI研究院總負責人。


注:投稿請傳送郵箱至tougao@datayuan.cn


640


640


7月17日,2018長三角資料智慧峰會—上海—新零售專場即將開始,期待我們的見面

相關文章