餘凱:深度學習,推進人工智慧的夢想

楊靜lillian發表於2014-04-16

國家“千人計劃”專家、百度深度學習研究院(IDL) 常務副院長餘凱4月4日14:00曾在清華大學FIT樓多功能廳做主題為“Deep Learning Unfolds Big Data Era”的學術報告。據悉,2014年4月24日下午百度第四屆技術開放日中,李彥宏將首次對外詮釋大資料驅動商業創新戰略;會上也將首次揭祕“百度大腦計劃”推動大資料價值的深度挖掘。仍然很納悶,到底百度為啥跟4這麼有緣?

據報導,這次百度“深度技術大講堂”在清華大學的活動吸引了中國科學院張鈸院士、機器學習專家美國哥倫比亞大學Tony Jebara教授、清華大學馬少平教授以及中科院計算所張雲泉研究員等相關人士,報告內容的含金量自然不在話下。

enter image description here

深度學習為何受到業界如此聚焦?作為機器學習研究中的一個新的領域,深度學習的動機在於建立、模擬人腦進行分析學習的神經網路,它模仿人腦的機制來解釋資料,例如影像,聲音和文字。深度學習是最接近人腦的複雜模型,也是目前向人工智慧走得最近的方法。

作為機器學習的重要分支,深度學習技術近年席捲產業界和學術界。Facebook、Google、IBM、蘋果、微軟、百度等均在此方面做了多種嘗試,百度還在美國矽谷特別成立了首家研究院——百度深度學習研究院(Idl),招攬全球機器學習領域的青年才俊。餘凱本人就是2011年到百度面試的。

言歸正傳,今天繼續擱置10天的講座筆記工作,談談我對餘凱4月4日講座的感想。當然,以下筆記主要是我個人的演繹與體會,還從餘凱本人去年發表的一篇《深度學習,推進人工智慧的夢想》中摘引了大量文字。

餘凱2012年4月初回到國內加盟百度,迄今只有兩年時間。在講座中他著重闡釋了2006年到現在深度學習的發展與AI的關係,以及百度為何要大量投入深度學習領域。餘凱認為機器學習是人工智慧的一個分支,而在很多時候,幾乎成為人工智慧的代名詞。簡單來說,機器學習就是通過演算法,使得機器能從大量歷史資料中學習規律,從而對新的樣本做智慧識別或對未來做預測。

2000年以來網際網路的高速發展,對大資料的智慧化分析和預測提出了巨大需求,淺層學習模型在網際網路應用上獲得了巨大成功。最成功的應用包括搜尋廣告系統(比如Google的AdWords、百度的鳳巢系統)的廣告點選率CTR預估、網頁搜尋排序(例如Yahoo!和微軟的搜尋引擎)、垃圾郵件過濾系統、基於內容的推薦系統等。

2006年,加拿大多倫多大學教授、機器學習領域泰斗——Geoffrey Hinton和他的學生Ruslan Salakhutdinov在頂尖學術刊物《科學》上發表了一篇文章,開啟了深度學習在學術界和工業界的浪潮。Hinton提出的神經網路深度學習演算法,使得至少具有7層的神經網路的訓練成為可能,這就是所謂的DNN。DNN正是由於能夠比較好地模擬人腦神經元多層深度傳遞的過程,因而它在解決一些複雜問題的時候有著非常明顯的突破性的表現。尤其是圖形計算器(GPU)能力的突飛猛進使得DNN令人生畏的計算複雜度不再成為問題,所以一些走得比較快的語音廠商已經急不可待將DNN作為其提高語音服務質量的殺手鐗了。

enter image description here

在這裡,餘凱提到一個重要的理念:Turn data into Value。李彥宏實際上是個技術達人,還曾經參加過一次ACM學術會議。特別有趣的是,有關OCR(光學自動識別)的一篇論文是李彥宏曾發表過的唯一一篇重要學術文章。現在OCR技術已用於百度街景,可識別店鋪、商家等。這也是李彥宏對深度學習情有獨鍾的原因之一。當然百度也在語音識別與理解上有競爭優勢,這方面能與百度匹敵的只有科大訊飛公司。

2012年4月10日,Facebook宣佈以10億美元收購只有十幾名員工的線上照片共享服務商Instagram,讓移動圖片應用大熱。其實Deep Learning從2006年就開始發展,但由於行業內熱點轉換很快,很多人沒有堅持到深度學習開花結果的這一天。

2011年以來,微軟研究院和Google的語音識別研究人員先後採用DNN技術降低語音識別錯誤率20%~30%,是語音識別領域十多年來最大的突破性進展。2012年,DNN技術在影像識別領域取得驚人的效果,在ImageNet評測上將錯誤率從26%降低到15%。一年多就讓錯誤率降低一半的成果當時震驚世界。在這一年,DNN還被應用於製藥公司的Druge Activity預測問題,並獲得世界最好成績,這一重要成果被《紐約時報》報導。今天Google、微軟、百度等知名的擁有大資料的高科技公司爭相投入資源,佔領深度學習的技術制高點,正是因為它們都看到了在大資料時代,更加複雜且更加強大的深度模型能深刻揭示海量資料裡所承載的複雜而豐富的資訊,並對未來或未知事件做更精準的預測。

在機器學習泰斗Geoffrey Hinton教授的引導下,他的兩個學生Alex Krizhevsky和Ilya Sutskever開發了一種能夠讓計算機準確識別物體的系統。谷歌曾經為這個三人團隊提供了60萬美元的資金來幫助他們繼續進行研究。2013年3月,谷歌以5000萬美元的價格收購了他們3人於2012年開創的公司DNNresearch。

除谷歌在深度學習領域戰略投資外,Facebook也成立了AI實驗室。百度則於2013年成立了深度學習研究院,李彥宏親自擔任院長。

百度的廣告深度學習系統2013年上線,而百度處理的資料量非常龐大,例如語音的訓練樣本達到100億級別,廣告的CTR點選率資料樣本則達到百億以上。對於網際網路公司而言,如何在工程上利用大規模的平行計算平臺來實現海量資料訓練,是各家公司從事深度學習技術研發首先要解決的問題。與Google採用普通伺服器不同,百度的多GPU平行計算平臺,克服了傳統SGD訓練的不能並行的技術難題,神經網路的訓練已經可以在海量語料上並行展開。可以預期,未來隨著海量資料訓練的DNN技術的發展,語音影像系統的識別率還會持續提升。

最重要的是,GPU帶來的計算能力提升和更多的訓練資料。百度在2012年底將深度學習技術成功應用於自然影像OCR識別和人臉識別等問題,並推出相應的桌面和移動搜尋產品,2013年,深度學習模型被成功應用於一般圖片的識別和理解。從百度的經驗來看,深度學習應用於影像識別不但大大提升了準確性,而且避免了人工特徵抽取的時間消耗,從而大大提高了線上計算效率。可以很有把握地說,從現在開始,深度學習將取代“人工特徵+機器學習”的方法而逐漸成為主流影像識別方法。

2012年12月,前總理溫家寶到北京中關村百度公司考察時,就試用了百度的手機語音搜尋。百度未來還可實現實時翻譯。此外,百度魔圖、塗書筆記、圖片自動配詩等也是深度學習的最新應用。百度在用GPU提升計算效率、處理海量訓練資料、OCR識別、影像識別、人臉識別、語音識別等方面取得了巨大提升,到目前為止,幾乎所有的百度核心搜尋和廣告產品,都全流量上線了深度學習技術。

語音識別方面,百度的表現也可圈可點。2012年底百度上線了第一款基於DNN的語音搜尋系統,成為最早採用DNN技術進行商業語音服務的公司之一;2013年百度推出的百度手機輸入法Android平臺3.5版,中文語音識別率突破90%,這樣的成績在業界尚屬第一次。

深度學習技術對百度影響深遠。百度貼吧具有極強的開放性,所以貼吧裡會存在部分垃圾資訊,百度基於深度學習色情影像識別率超過傳統方法100%,在清除垃圾資訊方面更給力,為給使用者創造了一個良好的使用環境;深度學習還讓百度在在語音識別領域的錯誤率相對降低了20-30%;全流量上線廣告Ctr預估,顯著提升廣告的精準度。

百度能夠在深度學習方面取得現有的成績,原因之一就是百度在大資料等方面具有天然優勢。作為全球最大中文搜尋引擎的百度,每天響應網民60億次的搜尋請求,因此能夠得到海量、真實的大資料,因此才能開展深度學習研究,沒有足夠的資料樣本,深度學習將毫無意義。

雖然深度學習取得了驚人的突破,但餘凱認為,深度學習還遠不是AI,只是towards AI。有人認為資料大了就解決所有問題,但深度學習建模過程中靈感仍然很重要,例如調引數仍然是個藝術。

而且,人腦的計算能耗比仍然是世界上最快的超級計算機天河二號的200萬倍。深度學習不僅要運用高效能運算,而且需要對大腦的認知機理非常瞭解。即使是深度神經網路,對問題也要非常瞭解,先驗知識非常重要。

enter image description here

深度學習帶來了機器學習的一個新浪潮,受到從學術界到工業界的廣泛重視,也導致了“大資料+深度模型”時代的來臨。在應用方面,深度學習使得語音影像的智慧識別和理解取得驚人進展,從而推動人工智慧和人機互動大踏步前進。同時,pCTR這樣的複雜機器學習任務也得到顯著提升。餘凱相信,如果我們能在理論、建模和工程方面,突破深度學習技術面臨的一系列難題,人工智慧的夢想將不再遙遠。

(歡迎關注@楊靜Lillian,微訊號:lillian_yang_1111)

相關文章