不成熟的NLP技術與人工智慧結合,下一個“商機”在哪兒?

weixin_34377065發表於2017-08-01

不成熟的NLP技術與人工智慧結合,下一個“商機”在哪兒?

人工智慧和自然語言處理技術的結合,不僅在資深網際網路公司的戰略中佔據了重要的地位,也造就了大量極具生命力的創新性公司。人工智慧和自然語言處理到底怎樣結合的?這種結合存在哪些挑戰?如何克服這些挑戰?未來是否還有更大機會?

在第二屆語言與智慧技術高峰論壇企業論壇上,出門問問創始人李志飛、百度自然語言處理部總監趙世奇、奇點機智創始人林德康、微軟亞洲研究院副院長周明、以及中科院軟體研究所研究員孫樂組成了企業圓桌論壇,中科院資訊工程研究生王斌擔任主持,他們就以上問題進行了討論。此外,他們就學術界和工業界的合作,自然語言處理技術的成熟度與產品需求的匹配等諸多問題也進行了深入探討。

7075077-72cf75b0febb65df.jpg

王斌:因為我也是原來做NLP出身的,做自然語言處理了人都知道,其實自然語言處理裡面有很多內容,到後面的機器翻譯,有一些技術不是很成熟。那麼這個不成熟的技術怎麼變成產品落地?其實是我們研究人員非常關心的一個問題。首先是志飛談一下,中午他就提到對這個問題有一些很深的看法。

李志飛:我沒有說我有很深的看法,但還是來說一下很淺的看法,確實自然語言處理的技術還不是很成熟,所以我覺得如果我需要做在產品裡面,舉兩個例子,首先技術對使用者真的是必須要用的。

比如說在車載裡面如果不用語音來跟這個機器對話,然後開車的時候,我要換一個地址或者說我導了航又想換音樂,因為這個時候使用者沒有別的辦法,所以他可能對你這個技術,也沒那麼挑剔,而且願意學習一下。如果在手機上做到這樣的話,他不會來學習怎麼用的,上來就挑戰他這個機器的智商,顯得這個人自己很聰明,或者調戲一下。但在這裡面,我覺得由於他有這個需求,所以哪怕自己花點時間,學習適應,他可能也會去用。我們在智慧車載裡面,發現日活躍10個使用者開啟了這個機器,可能7個使用者都會用語音互動。

另外一個,說白了這個NLP或者自然語言對話,你不能把它作為最主要產品最重要的Feature,只能拔到一個噱頭或者當一個錦上添花的事情。也就是說,你得構建另外一個產品是使用者必須需要的。在這個基礎之上,再加上語音對話,有的時候他想用就用,不想用就不用。但要明白,他不是因為這個來買單的。

我覺得這兩個例子是我自己從產品角度去看,就是第一個使用者必須要用。第二個可能這個NLP的技術在這裡面,不是說它是最最核心的一個使用者買單的體驗。

林德康:對,我們現在在做一部語音助手。但NLP技術好多東西也是不太成熟,其實我們也沒有指望它是一個很成熟的技術。就是說要使用比如Parsing或者其他自然語言分析結果的時候,就把它會Fail的這些因素會考慮進去,然後跟其他的方法能夠結合起來去用。

我們做這個自然語言產品,沒有志飛他們時間長,現在體會就是說,對於自然語言這個產品,一個很大的困難就是使用者期望很難確定,就是你能做的事情很少,拿個紙條告訴人家能夠為他們做什麼,那這就沒什麼機會去用了。另一個就是說,你讓使用者覺得你能做很多事情,但實際上沒有任何一個產品能滿足使用者很多需求,這樣使用者就經常很惱火。

我們用一個辦法去稍微去Match使用者期望值到某一個應用裡面,那企業會對這些應用有一些期望值。

趙世奇:我的看法第一個就是NLP技術可能很難講每一個技術真的成熟了。分詞可能算是成熟的,包括剛才林老師也說到的Parsing,它現在的準確率也不低了,雖然仍然難以說是成熟的,但實際上,我們會發現這些大量的自然語言技術其實在產品當中用的也不少。

舉一個例子,我們們說到翻譯,其實在當年Google那個時候上了Online Translation的時候,遠沒有現在成熟,它仍然是上線了,仍然得到了很多使用者使用。那今天其實是它在不斷成熟的過程中,作用在不斷的增大,但這不代表它不成熟的時候,就不能在一定程度上幫助到人們做一些事情。

另外還有一個方面,我們的產品和技術怎麼互補的問題,當技術不成熟的時候,就好像說是 “人”這個字是一撇一捺支撐起來的。其實我認為產品的技術也是一樣,人工智慧產品上的自然語言互動技術本身現在不成熟,它周邊設計了很多具體的技術。那我們在用的時候,顯然會遇到的一個問題,基本上三句就問倒了,或者是不會做什麼了。

在這樣的一個情況下,產品和技術如何去互補?就像剛才林老師說的,收縮和控制人們的使用預期,同時把技術的那種可能性挽回到極致。我覺得這個是需要技術人員和產品人員一起去想辦法解決的問題。

劉丹:我們從做人工智慧機器人是從2012年在成都落地來做的專案,當時NLP我們也就估計有3-5個人能懂一點,包括分詞、一些智慧應用識別。

產品我們更多以結果為導向。相當於說它一個不成熟的東西,你必須把它推到線上。通過線上去論證,直到成熟為止,它從不成熟到成熟的過程,看你怎麼定義它,我覺得它相對來說是一個不穩態。

但是通過現在大資料的存在,包括很多的消費者用到我們的智慧產品,他會幫助我們的技術、產品做一個修正和提升,最終走向成熟,我覺得這是非常重要的。就是說我們做的產品或專案也好,肯定是給我們的消費者帶來價值。否則不管成熟或者不成熟,都沒有這個命題存在。

王斌:大家討論的結果就是NLP這邊有一些地方不太成熟,但是跟應用相結合,找到其中的一個平衡點。第2個問題就是從這幾年開始大家看到深度學習席捲所有的領域,包括NLP的領域。那麼有一個問題就是,這個語言學難道就沒有什麼用了嗎?

周明:我自己的理解,語言學家其實在語言很多工上起到了很重要的作用。早期就不用說了,寫規則、語法詞典。其實就是今天語言還有詞典仍然起作用,比如說情感分析用字典,其實是語言學家幫助他來總結的。

還有一個標準體系,比如說情緒有多少種分類,其實語言學家可能告訴我們的沒有那麼準,語言學家幫助我們制定體系,這是一個盲點。

第二個,語言學家產生的語料,比如說知識圖譜這些東西,可以幫我們產生資料,來增強學習過程。

第三個就是語言學家可以做測試點,就是做任何自然語言處理的,有幾個關鍵的地方一定要測到。那麼語言學家給你寫出這種測試案例來,甚至是系統,就是基於語言點來測試,比你那種盲目的抽樣測試可能更準。

最後一個是現在所謂的都在通過大資料來進行學習,但是沒有或者很少進行建模和學習。恰好語言學家,能夠提供給予相應的指導方式。我認為這些領域,大家應該巧妙的利用起來才對。

孫樂:我覺得自然語言處理這個領域,實際上就是一個交叉學科,可能不但需要語言學,還需要心理學、哲學,需要神經科學。比方說,如果我們在建這個知識圖譜,在見證研究語言的一些關係。

實際上你需要去從這些哲學中,來對自然語言理解的世界進行理解,我們要從各個學科中去吸取一些新的經驗。我們學會在組織每年這種報告的時候,我們特別會請一些語言學家。其中一個老師他就講了一個詞性問題,但他分析了大概十幾種語言。

其實我覺得在場的很多老師得到了很多啟發,我們在講中文的特殊性,其實特殊的語言還有很多。還有另外一個比如說像從認知科學,如果說有這種新語言學家能夠把嬰兒學習語言的過程給我們揭示出來,對我們來說是非常大的一個幫助。

王斌:下一個問題是,一方面企業有真實的需求,有大量資料,也有計算環境。但是,研究界也有很多的資源,如何實現這個學術界和工業界的共贏?

林德康:其實,現在說深度學習那麼重要都是工業階層,但它是從學術界出來的,一直在學術界都不受重視,只有那麼幾個學者一直在堅持,堅持了幾十年。學術界跟工業界研究不一樣,在工業界一般有時間表,哪怕是在Google的研究部門也有這個壓力,會問這個到底跟現在的產品有沒有相關性。在產品部門就更是這樣的了,產品部門基本上是按Quarter算的。

在學術界做研究的話,一般是憑著自己信念、興趣,就不管最後是不是像Deep

Learning那樣成功,只要這個過程比較喜歡,才會有人去做。

李志飛:我之前也做過一段時間研究,後來就創業了。前一陣子建立了一個聯合實驗室,其實當時我就想說到底怎麼樣能夠把企業跟學校的研究連起來。在美國的話,像這種暑期訪問都有,但總的來說還沒有達到一個特別好的效果。

在中國我覺得就更差,我看百度可能都沒有這種教授暑期訪問的計劃。我當時想探討的一個模式是什麼呢?就是我特別想把這些博士生或者教授,能夠帶我們公司去待一個月或者待兩個星期,先熟悉一下我們的系統,從裡面的單元拿幾個模組,然後瞭解每個模組大概往裡面是怎麼插的。

我的目標倒不是讓這些老師或者學生去做我們的系統本身,但我覺得他可以先理解這個東西,然後再回到學校去,他甚至去抽象出問題,然後想想他搞的這些研究到底怎麼能夠跟我們的系統有一些關聯,或者他有一些演算法怎麼插進去。最後,有一些東西,是不是直接會直接放在我們的系統裡面去,我覺得這個是最好的一種模式。

但這個可能也沒那麼容易,因為很多學生他的壓力很大,系統這個程式碼太複雜,他看兩天可能就不看了。但我覺得這確實是特別核心的一件事情,如果說能夠對系統又瞭解,然後又抽象問題,這塊兒又能想出新的Idea,然後Idea可以放在我們的產品裡面去。但以前的話,學術上做一些Demo,自己寫不了App,後臺又沒有,根本就沒法Demo看。

而我們這裡面其實一做進去可能第二天就可以看見了,所以我覺得能夠以這樣的模式去做的話,其實你剛才說的資料也好,Idea或者人才成本也好,其實這些都不是什麼問題。

趙世奇:剛才志飛提到教授訪問計劃,百度其實是有的,包括青年學者到百度訪問,一般是幾個月,也有超過半年,然後確實也做了一些對於公司很多方向有幫助的一些研究成果,實習生就更不用說了。

現在還有另外一個問題,就是資料共享,那我就記得每次參加Panel這樣的環節,都有這個問題。就是為什麼不公佈資料、為什麼不共享資料,你們是有這樣的責任和義務的。其實這對於一個企業來說,它有這種服務使用者的義務,它為使用者的資料去保密,去慎重使用使用者資料的義務。

這個資料能不能在合理合法和恰當的範圍內和學術界來實現共享,我覺得這個作為企業來說,也應該算是一個思考。其實,之前我們說要不然不共享,要不然就是全盤突出的共享。但我有沒有一個更安全、更合理方式的保證。我們說大家研究可用,甚至說包括一些開發者的開發可用,另一方面我們對於使用者是安全的,也能夠盡到它保護使用者隱私和資料的責任。

我舉個例子,像我們現在也在探討一些方式,我們今年開放面向開發者的一個平臺,它是做語言理解和互動技術的。那我們就意識到,開放這樣一個平臺只有技術的情況下其實是不夠的。尤其像理解互動,沒有資料的話大家是沒有辦法做的,所以有一種方式就是說,在平臺上大家可以去提交自己標註的小範圍、小規模的資料。

有了這些資料之後,我們其實可以從百度大資料裡面,自動通過語義計算方式去篩選出來和你的資料最相似的一些資料,甚至可以篩選出來和你最容易錯的那些資料最相似的資料。那麼這些資料再提供給我們的開發者來做標準,這個過程它其實就是變成一種,我把所有最相似、最有用的那一部分資料給你。當然,這個前提是我們確保這些資料不會構成對使用者隱私的侵犯。通過這種方式,我們希望可以達到更好的一個折中的狀態。

劉丹:其實我們京東也在高校有一些合作,包括跟國內外大學建立了一些聯合實驗室,做一些課題,包括在做一些深度學習相關的一些演算法研究。但更重要的是這些模型都來自於一個學術界的一些新的Paper或者新觀念,大家都能看得到。

資料的問題,這個安全性很重要,包括京東上有使用者家裡面的資料,資料是相當高質量的。所以,這對我們來說相當重要。那我們在做深度學習也好,包括相關演算法提升也好,就是這個資料,到底怎麼來提供給你?學生的話可以來加入我們,這個資料可以整個開放給他。但是外面的人,我覺得可以通過借用的方式。

這個我們可以找出一部分相關的一些資料做一些資料透明,挖出來他的使用者資訊、電話等相關資訊。這樣的話,可以拿來做一些訓練,包括做一些標準,未來上線的一個評測。使用者覺得這個是沒問題的,現在我們有一個模算師的平臺就是做這個工作,裡面沉浸了大量的一些區域面。未來如果有一些對Chatbot比較感興趣的可以來做一些探討。

但是我這裡想提的一個是所謂BI(Business Intelligence)。就是自然語言去放在大資料這種環境來看,它是分析自然語言的這種資料,把BI做好了之後、把資料分析好了之後,放在這個業務裡面,比如說法律諮詢、醫療、教育各個方面都可以有廣泛的應用。但是在那個應用的時候,別人真不知道這個背後是自然語言技術。所以我是覺得把自然語言當做一種無形的一種技術,融入到很多的垂直使用者的痛點問題上,這樣可能是回答一些問題,可能也是產品化的一些機會。

7075077-277c716b3265922b.png

相關文章