專訪谷歌NLP技術專家:我們負責讓谷歌更懂人類語言

PSI內容合夥人發表於2015-11-13
自然語言處理,簡稱NLP(Natural language processing),就是用機器來處理人類賴以交流的書寫文字和口頭語言。它利用語言學和統計學,加上機器學習,以便在自動化服務中對語言進行建模。 好吧,這是一個乾巴巴的定義。 實際上,NLP是(或者說幾乎是)所有資訊密集型處理過程的核心。NLP驅動了搜尋引擎、虛擬個人助理、系統推薦、現代生物醫藥研究、智慧和商業調查、消費者洞察…… 世界上在NLP上投資最多的公司,無出其右,就是谷歌了。 我最近拜訪了谷歌公司的Enrique Alfonseca,請他回答了我提出的一些問題。 [caption id="attachment_6795" align="alignleft" width="239"]enriquealfonseca500 Enrique Alfonseca[/caption] 人物簡介:Enrique Alfonseca管理著谷歌蘇黎世研究院的自然語言理解(NLU,Natural Language Understanding)研究團隊,研究資訊提取和文字自動摘要的應用。總體來說,谷歌研究院NLU團隊「帶領、構建和革新著語義分析、表徵、句法分析與實現、形態與詞彙發展等領域的方法。我們的工作直接影響著 Google Now、知識圖譜、谷歌翻譯等機器智慧研究中的對話式搜尋。」 在加入NLU團隊之前,Enrique曾在與廣告相關性和搜尋排名有關的廣告質量和搜尋質量團隊中擔任過不同的職位。他在廣告質量目標(付費搜尋)和查詢擴充套件方便進行了改革,極大地提高了廣告收入。他還是位於蘇黎世的瑞士聯邦理工學院(ETH)的講師。 接下來請看這位技術大牛的觀點: Seth Grimes:你的工作涉及到NLP領域的多個方向。那麼,請先談一下你目前的研究主題是什麼? Enrique Alfonseca:現在,我的團隊正在研究谷歌搜尋中的問答系統,這允許我和我的同事在我們富有經驗的不同領域內共同創新。以我為例,我在資訊提取、事件抽取、文字摘要和資訊檢索等方面工作了許多年,而這些組合起來,就是問答系統——資訊檢索用來在網路上尋找和排名相關的段落,資訊提取用來識別具體物件和搜尋的實際答案,文字摘要將它以一種簡潔的方式呈現給使用者。 Seth:那麼您谷歌蘇黎世研究院的同事們在研究什麼課題呢? Enrique:蘇黎世團隊的工作與谷歌其他辦公團隊及相關合作產品聯絡非常緊密,所以很難為“谷歌蘇黎世研究組”與谷歌其他部分找出明確的界限。這就是說,蘇黎世的同事們參與到了語言處理(文字分析、生成、對話等)、影片處理、手寫識別等領域。 [caption id="attachment_6798" align="alignright" width="287"]谷歌地圖上的谷歌蘇黎世研究院 谷歌地圖上的谷歌蘇黎世研究院[/caption] Seth:你們只做「純」學術研究,還是你們已經在一定程度上影響了谷歌的產品路線圖? Enrique:Alfred Spector、Peter Norvig和Slav Petrov在2012年發表的一篇論文很好地概括了我們的研究思路。一方面,我們認為做研究需要在產品團隊中進行,實際上也確實如此。我們大部分的軟體工程師都有碩士或博士學位以及在所研究課題上先前的工作經驗。他們把這份專業知識應用在了產品開發的方方面面,如搜尋質量、廣告質量、垃圾檢測等等。與此同時,我們有許多長期專案,致力於解決整個谷歌公司應該在未來幾年內解決的問題。對於大多數的這些問題,我們把複雜的挑戰細分成可處理的更小的問題,以便快速進步,同時我們有一路走來影響谷歌產品的目標,這激勵著我們向長期目標邁進。 舉個例子,當我們開始研究文字事件模型時,我們還沒有考慮到具體的產品,儘管我們猜測理解新聞報導的含義應該會有很多應用場景。研究了一段時間之後,我們意識到,這對於確保網路搜尋中顯示的知識圖譜資訊與最新報導保持同步更新是十分有效的。雖然我們還沒有得到精度高、新聞覆蓋面廣、理解深入的模型,但這項技術已經被證明對我們的使用者非常有用。 Seth:你們涉足研究創新成果產品化嗎?在谷歌,是否有從研究到產品的典型路徑? Enrique:是的,我們負責把我們開發的技術轉化為產品。如果研究和生產是分開處理的,就會有以下這兩個導致失敗的常見原因。 如果研究團隊不貼近生產需要的話,他們的評估和資料集就有可能無法充分代表整個產品的實際需要。這在研究團隊攻關不斷更新的產品時尤其成問題。除非是直接研究產品本身,否則很可能團隊正在研究的設定將很快被淘汰,積極成果也不會轉化為產品的提升。 同時,如果把研究的創新成果應用在產品上的人並不是研究者自己的話,他們很可能不夠了解新技術,也就沒法做出正確的決策,比如在產品需求要求你權衡降低一些準確性來減少計算成本的時候。 Seth:在谷歌語言技術大會上,僅僅Your LT-Accelerate 的展示就佔據了兩天的會議議程。但是,你計劃主要探討資訊提取和一些其它的主題。你已經寫到資訊提取是非常困難的。你提到的挑戰包括知識庫的實體解析和一致性問題。那麼,首先,「實體解析」和「知識庫」的定義是什麼? Enrique:我們把給定主題文字的查詢問題稱為「實體解析」,知識庫的入口代表那個主題。例如,如果你的知識庫是維基百科,人們可以把這個入口用英文定義為「Barack Obama」,「Barack」,「Obama」,「美國總統」等等。同時,「Obama」也可能指的是任何有相同名字的的人,所以這裡存在一個模糊性問題。在字面上,人們也把這個問題稱作實體連線或者實體消歧。兩年前,谷歌的一些員工釋出了一個實體解析註釋的超大文集,這個大的網路文集包括對Freebase主題的110億次引用,它是由世界上研究資訊提取的研究人員開發的。 當我們談到知識集,我們指的是真實世界(或者虛擬世界)的結構化資訊,在許多其他應用中,人們能夠對文字進行語言分析。這些一般包括主題(概念和實體)、屬性、關係、型別層次、推理規則...知識表徵和人工、自動知識獲取的研究進行了許多年,但是這些都是遠未解決的難題。 Seth:那麼模糊性、名字匹配、代詞、回指等等各種各樣的指代都是挑戰的一部分。總體上,實體解析的技術發展狀況如何? Enrique:指代確實是一個相關的難題,我認為它應該和實體解析一起被解決。 使用不同的資料集和測試集,結果會變化,但是表述式註釋目前已經達到了8-9成的正確率。大多數的資料集,像維基百科和Freebase,大部分是人工構建的,並沒有具體的應用,並且當使用者使用讓它們進行實體消岐時,總是出現問題。 Seth:知識層面的連貫性問題一般都會出現在哪裡?是在表達差異之中,定義不相容之間,某個瞬間的捕獲,或僅僅就是對事實的不同意?(以上就是我認為人類認知上最大可能產生不一致的原因。)從使用者的角度來看,不一致性是如何影響谷歌這方面表現的? Enrique:各主題的不同報導深度,以及在不同的領域中不同層次的細節描述,是常見的問題。根據不同應用,人們可能想要調整解析度系統更偏向解決提到作為頭部實體或尾實體,以及某些實體可以人為提升的僅僅是因為它們是在一個更密集的,網路的更詳細的部分中的 知識庫。在此之上,模式被認為出去是本體論正確的,但例外情況發生一般;許多知識基地已建成透過合併資料集不同的粒度級別,從而引發和解問題;和維基百科包含未明確與其他即使他們顯然與他們的話題多「孤兒節點」。 Seth:例如,資料的綜合處理(curation)是一種解決方案嗎?就像IBM沃森和 Wolfram Alpha(一個能夠根據問題直接給出答案的新一代搜尋引擎)所使用的那種,或者這些挑戰能夠以演算法解決嗎?除了谷歌只來,還有哪些學術界或者產業界的公司在這方面做了有趣的研究? Enrique:毫無疑問,手動資料處理manual curation可以提供部分解決方案解決方案。同時,如果我們希望可以事無鉅細地記錄那些冗長的事實資料,將所有資訊都手動新增進去並讓其保持永久更新,這是不現實的。自動協調現有的結構化來源,就像資料庫、圖書、體育比賽結果,等等,也是解決方案的一部分。我相信它將最終有可能應用在資訊提取技術方面,不管是結構化資料來源還是非結構化資料來源,但這也面臨著不小的挑戰。我之前提到過,「實體解析」系統的準確率在80%至90%之間。這意味著,對於任意自動提取的例項集,它們中有至少10%會被關聯到錯誤的實體中——這種錯誤意味著例項提取模型中的任何錯誤都會在頂部積累。聚合功能能夠有效的降低錯誤率,但這對於長尾來說就沒那麼有效了。 事情也有好的一面,那就是這個領域正在繁榮發展——在ACL、EMNLP和其他會議上的內容,足夠證明這個領域的飛速發展。透過對查詢的語義分析來回答Freebase(一個類似維基百科的創作共享類網站)上似是而非的問題,如何將深度學習整合至KB表徵和推理任務,更好的將目標和應用於實體解析的區域性模型結合起來,等等,這些都是在過去的十幾年中已經取得重要突破的幾個問題。 Seth:最後,自然語言處理領域內有什麼新聞和令人興奮的事情? Enrique:一方面,整個行業在個人助理功能上正在快速創新——一個可以透過自然對話與人類互動的工具,瞭解人們的一切,包括他們的利益和需求等,回答他們的資訊需求,在規劃和記憶任務反面提供幫助,並能協助控制他們的裝置,以使他們的生活更舒適。自然語言處理等許多領域需要改進來使前面提到的長期願景成為現實,但我們已經開始看到它是如何改變我們的生活。 在另一方面,語言和實體之間的關係將有進一步的發展作為發展發生在機器人領域,我們將不只是能夠接地我們的語言分析了虛擬的知識基礎,但在實際的體驗。 來自breakthroughanalysis,作者Seth Grimes,機器之心翻譯出品。參與:Philip Liu,姜振東,趙雲峰,Sane Chen,Gabrielle Zhang,汪汪。

相關文章