演講時間:5 月 28 日,9:40-10:10 AM
演講主題:遷移學習研究
本篇文章轉自第四正規化公眾號,內容根據楊強教授的演講編寫。楊強教授為第四正規化首席科學家,華人界首個國際人工智慧協會AAAI Fellow、唯一的AAAI 華人執委。在今年 5 月份機器之心 GMIS 2017 大會上,楊強教授將就遷移學習這一主題分享更多精彩的內容。
以下內容根據楊強教授演講編寫,略微有所刪減。
有些人看過電視劇《西部世界》—在《西部世界》裡,你可能問的一個關鍵問題是什麼?就是當劇中的人們,其中任何一個人走到你面前,你能否區分出他/她是個真人? 你會問:咦,這不是圖靈測試要解決的問題嗎? 是的。 問題是,如果《西部世界》裡的這些機器人已經透過了圖靈測試,你又如何區分他/她們呢?
要解決這個問題,除了用“一槍把對方打死,然後看對方是否真的死了”這個極端的檢測方法以外,還有什麼更好的方法呢?這裡有些劇透,答案是:拍蒼蠅。當一個蒼蠅飛到一個“人”的臉上,如果這個人沒有感覺,不會去撥開或拍打蒼蠅,他/她很可能就是機器人。結果因此還引發了一件趣事,去年美國大選的時候,希拉蕊在講臺上面,一個蒼蠅飛到她臉上,她沒有搭理,後來有人就說:糟了,我們要選一個機器人當總統了!那時《西部世界》恰好正在熱播。
言歸正傳,從人工智慧的角度,“拍蒼蠅”這個例子,說明什麼呢?它告訴我們有一些關鍵特徵可供識別真人亦或機器人,但要找到這些關鍵特徵並不容易。對《西部世界》而言,你得把整個劇看完才能知道。也就是說,你不但要有大量資料的訓練,而且得知道劇裡的機器人的製造原理,這樣才能找到這個重要特徵。那麼問題來了:如果作為“遊客”,我們對這個機器人的構造知道甚少怎麼辦?
要回答這一點,我首先要給大家講一下機率模型的不同型別。機率模型是貫穿整個機器學習的主線。下面PPT上的這兩張圖是對一個女孩的素描,我們在素描裡面可以看到很多的特徵,比方說比較飄逸的筆畫、或者是適合女性顏色等。我們把上面的問題簡化一下:如何能夠透過辨別這些體徵、從而認出來畫上的是男是女?
這裡我要介紹一個“生成”模型的概念。 在某個關於“人”的樣本集裡面找到某一個高機率的樣本,我們認為這個樣本很可能對應我們對“人” 這個概念的認識。然後我們根據這個樣本來做完形填空或著彩。在小學中學我們經常做的一種題就是填空。其實,生成樣本的過程和填空很相似:當我們看到這張畫要給它著色時要選擇顏色和圖案,是因為這些選擇符合“人”的機率分佈。
再具體一些:如果資料是(X,Y),這裡我們用X這個變數來代表筆畫和顏色,Y這個變數來區分男女,那麼這個機率資料是遵循一定分佈規律的。但問題是,如何才能得到這個資料的分佈?在現實中,做到這一點是非常難的,因為這需要我們獲得機率的“聯合分佈”,就是所有顯式和隱式的特徵和它們所有可能取值的機率。知道了這個機率,生成某個樣本就很容易了。 在機器學習的歷史上, 關於要不要首先獲得“聯合分佈”這個問題,有著很多的爭論。比方說,有貝葉斯流派,就說:“是的,我們需要這樣一個聯合分佈”。而深度學習流派,或者是SVM等演算法對應的這些流派,就說:既然我們的目的是分類,那用簡單的演算法就可以了,所以”不需要”。 得到一個聯合機率分佈是非常非常難的事情,因為需要因果關係的知識,還需要很多先驗機率。