【X開放日】李志飛講述Google Glass上的中文語音搜尋

網際網路X實驗室發表於2014-05-15

由網際網路X實驗室主辦的【X開放日】於5月11日下午成功舉辦,7個來自中國網際網路最前沿的創新成果參加路演,來自不同領域的近300位嘉賓參與活動,並與演講嘉賓熱情互動。

第三位演講嘉賓畢業於約翰霍普金斯大學,後加入谷歌總部擔任科學家,期間開發了Google Translate離線手機翻譯系統,他利用自己對人工智慧的豐富經驗,成功打造出一款可以完全通過語音輸入進行操作的生活資訊工具——出門問問。他就是語音搜尋應用“出門問問”創始人、CEO李志飛先生。他的演講主題是《Google Glass上的中文語音搜尋》。以下是演講內容的速記。

enter image description here

【李志飛】我演講的主題是Google Glass的人工智慧夢,這涉及一個大問題:人類的未來到底是什麼?我不知道大家現在有沒有答案,我的答案是變成機器人,因為在中國這種地方,在北京這種地方,一個正常人是很難生存下去的。所以我覺得,我們最好的結果,就是進化成一個機器人。這不是一個笑話,現在我向大家描述我的觀點。

大家有沒有看過一本書?《奇點臨近》。認為機器人某一天可能會代替人類,包括最近著名的物理學家霍金接受採訪,說人工智慧可能是人類科技史上最厲害的一件事情,也有可能是最後一件事情,因為機器會把人類毀滅,因為它的失控。

我覺得人工智慧,不應該是我們一定要製造一個機器人,像人一樣有智慧,我覺得我們的人工智慧技術是要輔助人,使你得到提升。比如說有10分,6分是機器帶給你的智慧,另外4分是本身的智慧,機器人不是代替人。相對而言,你更應該擔心的是你今後會進化成半人半機器。

我想講一下八卦。在講話之前,我想了解一下在座有多少位博士,或者是讀博士的?因為我之後的講話可能和博士是有關係的。

我首先講一下人工智慧,它最近到底有多熱,熱成什麼樣?我想從谷歌講起,我認為谷歌是在慢慢從廣告公司轉化成為一家人工智慧公司。

谷歌收購了一家公司,我不知道在座有多少人聽說過?我想沒有人聽過這個公司或者用過他們的產品,然後我就去研究這個公司,我去看他們的網站,是一個黑屏,直到現在看他的網站還是這樣。後來仔細研究一下,這家公司是有幾個牛人的,就是說深度學習三架馬車之一,當時我覺得谷歌收購這麼一家公司主要是為了人。

後來,他在某一個會上宣佈了收購了8個機器人公司。在PPT中我們可以看到,谷歌收購公司都很有意思,2013年12月2日開始,2號,6、7、8、9、10,每天(收購)一個。大家知道安卓為什麼叫安卓?因為這個創始人就特別喜歡機器人,所以我覺得他在收購這8家公司的時候,是把自己變成安卓圖片上的這個人了,半人半機器。

2014年1月份谷歌又收購了一家公司叫DeepMind,從來沒有聽說過,也沒有過產品的一家公司,谷歌以6.5億美元收購。我查一下有50多個人,沒有任何商業產品,但是有一篇論文是沒發表的,把這個論文下載了一下,這篇論文大概9頁紙,前言可能有大概1頁多,也就是說是7頁正文,一頁紙大約是1億美金。

說到這裡,谷歌在幹什麼?這些投資部門到底是怎麼估值的?在座的博士有沒有人知道他們是怎麼估值的?大家算一下,30多個PhD,一個博士2千萬美金差不多。所以我覺得在座的博士們,回去要和你們老闆說:“我們太值錢了,我現在薪水可能太低了。”

谷歌為什麼要這麼做?聽起來可能是非常非常不可思議的,一方面可能代表了高科技公司對人工智慧會產生一種新的突變,另一方面也許是整個商業模式發生了變化,所以他們不惜一切來挖人。

剛才是谷歌,大家快速看一下谷歌的死對頭Facebook。2013年12月份,Yann LeCun被Facebook聘用了。這就是為了宣佈他們建立了人工智慧實驗室,然後請他作為老大。

在2014年3月份,祖克伯等投資Vicarious,4千萬美金。我看了一下網站,裡面寫了一句話,我們正在製造像人一樣的思考和學習的軟體,我想可能在座很多都是做研究的,對這個企業或者對工業不是很熟悉。

後來大家看到很多公司,比如一個自動回答問題的軟體,IBM決定投資10億美金打造這個東西,產生更多的應用,比如說醫療、保險等等。

以上就能看出來現在人工智慧的公司有多麼地熱,熱到有多麼地無法置信?甚至在某種程度上就是一種泡沫,這個泡沫會延續到什麼時候再破是值得研究的。其實讓我們看看人工智慧的歷史,它不是今天才出現的。而一直沒有大熱,就是因為企業界和政府對人工智慧的期望值太高,想要研究一個機器像人一樣,總統聽說覺得不錯,可以代替我,就趕緊投錢,但是後來他發現他還是自己看報紙,看檔案,於是就把錢給撤掉了。也就是說,如果你能做好,就可以快速成長,如果做得不好就一下子打下深淵。

大概在1975年,英國有一個流體學家做了一個報告,說當時做人工智慧的那些公司的研究是騙人的,首先在1966年,他們就跳出來講10年之內我們機器就出名了,後來,發現實際上達不到,就寫了一個報告反對支援他們的研究,最後導致整個政府全部給卡掉。剛才陳博士講到的第五代計算機,神經網路計算機,也是在那個時代出現的。當時很多企業都成立了人工智慧部門,有一個人工智慧團隊,後來有普通機器出來,那些機器在市場上就沒有價值了。這其實是一個過程。

90年代大家都非常清楚了,無人車挑戰、谷歌無人駕駛、谷歌做眼鏡,就是我戴在頭上的東西。其實你想,真的一個機器想具有人的智慧,它首先需要電和語音識別,你要看得見,其實就是說你後面能夠有思考能力,這是人工智慧裡面最難的。還有前面講的關於視覺的東西,如果是機器人的話還會操縱,你要知道這是一個障礙。

前面都是比較基本的,就是說這機器真要像人的話,大家可以看到你有喜怒哀樂,有愛有恨,這可能就是在那些科幻電影,或者語言學家的研究中,為什麼擔心人工智慧對人類打擊的原因。如果機器像那樣的話,那就會很亂。

我今天想說的一個觀點,最重要的觀點,就是我認為現在這一個時代,在現在的這一刻,我覺得確實人工智慧是一個全新的機遇。為什麼?因為現在我們擁有了太多的智慧裝置,而這些裝置擁有很多感測器,你的手機有攝像頭、麥克風等等,眼鏡也是一樣的,以後你戴的手錶,甚至家裡的電視都是智慧的,因為有了這些感測器,可以蒐集很多像人蒐集的資訊,這樣一來就變得比較有意思了,我來講幾個方面。

第一,人工智慧第一個是技術更成熟了。現在的語音識別、圖象識別肯定和5年以前,甚至跟兩年以前,有特別特別大的差別。現在語音識別可以做到90%以上字元的正確率。

第二,任何一項技術最後要普及的話,是要有真實使用者需求的。如果只是我們一幫科學家想製造一個能夠愛你的機器人,普通老百姓不一定需要。但是我覺得在新的時代,我們有這個裝置,而且裝置像手機、眼鏡、手錶,都是一些有限的裝置,有時我們每天看到的資訊實在太多了,需要一些智慧的資訊過濾、加工、整理等。有了這東西,就是非常自然的了,因為有了這個需求,有人來用這個東西,這是跟以前完全不一樣的。

接下來,講一下谷歌眼鏡。因為眼鏡是我認為能實現人工智慧某些東西的比較現實的東西,前面講了很多影像,我覺得跟眼鏡是特別符合的。

我想講一個場景,就是描述有了谷歌眼鏡以後你能幹什麼。你看到一個小動物,你覺得特別可愛,它就可以直接拍照放給你朋友。還有比如說你看上了這個包包,但是不知道這個包包在哪裡能買到,你把眼鏡戴上,問這個包包在哪裡可以買到,它就會告訴你,在哪裡可以買到。你問這是什麼植物?它就會把百科給你打出來。

你可能看到美女,很想跟她聊天,但是你又沒有辦法。但是用谷歌眼鏡,你就可以問這個美女跟我有什麼關係沒有。於是谷歌眼鏡便連線到你的社交網路,說你前同事、現女友,表示和她是有關係的。這時候就拉近了距離,我認識你的朋友,我們一起是幹什麼的,這是最有潛力的應用。

前面的東西,都是我們操控眼鏡問它幹嗎,你也可以想象,以後我走在街上看到有一個廣告,它會說這個廣告多少錢你可以買到,也就是說機器會以環境和興趣來蒐集你的資訊,我覺得這在未來也是一個很大的方向。

待會兒我們會演示谷歌眼鏡能幹什麼?我們主要是做語音分析、語音識別等。廣告不做了,我還是直接給大家演示。

我現在的演示,我同事會把這個切到螢幕,我看到的就是在螢幕上的東西,你可以做一些語音搜尋,現在是一個很初步的過程。

你好問問!附近的川菜館!然後大家就可以看到,你大螢幕上看到的就是我看到的,我可以用手這樣往前滑,就可以選第二個、第三個,比如說我點一個具體菜館進去,就會看到結果。你會看到它的地圖、電話號碼,我要去這個店,甚至可以直接給他們打電話。

enter image description here

當你的眼鏡,跟你的語音、視覺,跟你的終端結合起來,是非常方便的。這個眼鏡的操作,往下就是取消,就是回退鍵,前後是選擇,點一下進入到具體地點。去天安門怎麼走?你看,它就列印出來一個地圖,你可以直接導航,你也可以問這個路線詳情,它可以告訴你,第一步幹什麼,第二步幹什麼。

我們會做一些線下體驗活動,大家想去體驗的話,可以加入我們的微訊號“出門問問”,有訊息的話我們可以直接發給大家,大家可以去體驗。


互動環節

Q1:問兩個問題,語音識別的資源庫是如何建立的,又是如何匹配的?第二個,出門問問是基於安卓本身系統的,如果我在用非安卓的系統程式進行匹配,CPU是不是有一個開發的過程?

A:我回答你第二個問題,就是安卓的作業系統。你在安卓手機上開發一個應用,對我們來說主要是後臺的技術比較複雜,語音識別、語義分析、內容的對接,都是在後臺做,這是第二個問題。第一個問題,資料庫是怎麼來的,這是商業機密。人工智慧技術更成熟,這種語音識別為什麼能夠取得更快的進展,因為現在蒐集資料太容易了,以前收集資料要請一些人到安靜的辦公室錄音,這個資料還不一定是真正用的資料。現在由於我們在移動時代,我們隨便做一個app,這個app一上線有很多人用,這些人在地鐵用、在家用,我們再花錢把正確答案標出來,基本上通過我們自己的app蒐集。當然首先我們也是需要購買一些資料庫。就是這樣的一個過程。

Q2:李總您好!我想知道我們和谷歌的關係,包括未來可能在上面有一個搜狗的語音助手,另外,雲知聲、科大訊飛也是做語音軟體的,我們是怎麼樣來做競爭的?謝謝。

A:首先,谷歌眼鏡現在在中國,它是沒有中文版的,如果你現在花了1萬元買一個谷歌眼鏡,它別的服務都是連不上去的,是需要英文操控。現在我們是第一款中國語音搜尋應用,用這個東西和在美國差不多了,你可以導航,可以查周邊,基本和美國是一樣的。回答你另外一個問題,我覺得我們做得好一點,首先我們是語音識別、語義分析,以及內容和案子都是自己做。像你提到的一些競爭對手,雲之聲更多是做伺服器的服務,更多是語音識別,而不是做app,以及使用者的體驗。訊飛是一個國企,我們是網際網路公司,這在本質是不一樣的操作方式。跟別的網際網路公司比,我們做得比較垂直一點,我們定位成一個搜尋產品,希望是真正給你提供資訊,而不是說陪你聊天。你會每天跟一個機器人聊天嗎?我認為不可能,但是我覺得你需要它所提供的資訊,我覺得這才是非常有價值的。

相關文章