專訪谷歌NLP技術專家:我們負責讓谷歌更懂人類語言
自然語言處理,簡稱NLP(Natural language processing),就是用機器來處理人類賴以交流的書寫文字和口頭語言。它利用語言學和統計學,加上機器學習,以便在自動化服務中對語言進行建模。
好吧,這是一個乾巴巴的定義。
實際上,NLP是(或者說幾乎是)所有資訊密集型處理過程的核心。NLP驅動了搜尋引擎、虛擬個人助理、系統推薦、現代生物醫藥研究、智慧和商業調查、消費者洞察……
世界上在NLP上投資最多的公司,無出其右,就是谷歌了。
我最近拜訪了谷歌公司的Enrique Alfonseca,請他回答了我提出的一些問題。
[caption id="attachment_6795" align="alignleft" width="239"] Enrique Alfonseca[/caption]
人物簡介:Enrique Alfonseca管理著谷歌蘇黎世研究院的自然語言理解(NLU,Natural Language Understanding)研究團隊,研究資訊提取和文字自動摘要的應用。總體來說,谷歌研究院NLU團隊「帶領、構建和革新著語義分析、表徵、句法分析與實現、形態與詞彙發展等領域的方法。我們的工作直接影響著 Google Now、知識圖譜、谷歌翻譯等機器智慧研究中的對話式搜尋。」
在加入NLU團隊之前,Enrique曾在與廣告相關性和搜尋排名有關的廣告質量和搜尋質量團隊中擔任過不同的職位。他在廣告質量目標(付費搜尋)和查詢擴充套件方便進行了改革,極大地提高了廣告收入。他還是位於蘇黎世的瑞士聯邦理工學院(ETH)的講師。
接下來請看這位技術大牛的觀點:
Seth Grimes:你的工作涉及到NLP領域的多個方向。那麼,請先談一下你目前的研究主題是什麼?
Enrique Alfonseca:現在,我的團隊正在研究谷歌搜尋中的問答系統,這允許我和我的同事在我們富有經驗的不同領域內共同創新。以我為例,我在資訊提取、事件抽取、文字摘要和資訊檢索等方面工作了許多年,而這些組合起來,就是問答系統——資訊檢索用來在網路上尋找和排名相關的段落,資訊提取用來識別具體物件和搜尋的實際答案,文字摘要將它以一種簡潔的方式呈現給使用者。
Seth:那麼您谷歌蘇黎世研究院的同事們在研究什麼課題呢?
Enrique:蘇黎世團隊的工作與谷歌其他辦公團隊及相關合作產品聯絡非常緊密,所以很難為“谷歌蘇黎世研究組”與谷歌其他部分找出明確的界限。這就是說,蘇黎世的同事們參與到了語言處理(文字分析、生成、對話等)、影片處理、手寫識別等領域。
[caption id="attachment_6798" align="alignright" width="287"] 谷歌地圖上的谷歌蘇黎世研究院[/caption]
Seth:你們只做「純」學術研究,還是你們已經在一定程度上影響了谷歌的產品路線圖?
Enrique:Alfred Spector、Peter Norvig和Slav Petrov在2012年發表的一篇論文很好地概括了我們的研究思路。一方面,我們認為做研究需要在產品團隊中進行,實際上也確實如此。我們大部分的軟體工程師都有碩士或博士學位以及在所研究課題上先前的工作經驗。他們把這份專業知識應用在了產品開發的方方面面,如搜尋質量、廣告質量、垃圾檢測等等。與此同時,我們有許多長期專案,致力於解決整個谷歌公司應該在未來幾年內解決的問題。對於大多數的這些問題,我們把複雜的挑戰細分成可處理的更小的問題,以便快速進步,同時我們有一路走來影響谷歌產品的目標,這激勵著我們向長期目標邁進。
舉個例子,當我們開始研究文字事件模型時,我們還沒有考慮到具體的產品,儘管我們猜測理解新聞報導的含義應該會有很多應用場景。研究了一段時間之後,我們意識到,這對於確保網路搜尋中顯示的知識圖譜資訊與最新報導保持同步更新是十分有效的。雖然我們還沒有得到精度高、新聞覆蓋面廣、理解深入的模型,但這項技術已經被證明對我們的使用者非常有用。
Seth:你們涉足研究創新成果產品化嗎?在谷歌,是否有從研究到產品的典型路徑?
Enrique:是的,我們負責把我們開發的技術轉化為產品。如果研究和生產是分開處理的,就會有以下這兩個導致失敗的常見原因。
如果研究團隊不貼近生產需要的話,他們的評估和資料集就有可能無法充分代表整個產品的實際需要。這在研究團隊攻關不斷更新的產品時尤其成問題。除非是直接研究產品本身,否則很可能團隊正在研究的設定將很快被淘汰,積極成果也不會轉化為產品的提升。
同時,如果把研究的創新成果應用在產品上的人並不是研究者自己的話,他們很可能不夠了解新技術,也就沒法做出正確的決策,比如在產品需求要求你權衡降低一些準確性來減少計算成本的時候。
Seth:在谷歌語言技術大會上,僅僅Your LT-Accelerate 的展示就佔據了兩天的會議議程。但是,你計劃主要探討資訊提取和一些其它的主題。你已經寫到資訊提取是非常困難的。你提到的挑戰包括知識庫的實體解析和一致性問題。那麼,首先,「實體解析」和「知識庫」的定義是什麼?
Enrique:我們把給定主題文字的查詢問題稱為「實體解析」,知識庫的入口代表那個主題。例如,如果你的知識庫是維基百科,人們可以把這個入口用英文定義為「Barack Obama」,「Barack」,「Obama」,「美國總統」等等。同時,「Obama」也可能指的是任何有相同名字的的人,所以這裡存在一個模糊性問題。在字面上,人們也把這個問題稱作實體連線或者實體消歧。兩年前,谷歌的一些員工釋出了一個實體解析註釋的超大文集,這個大的網路文集包括對Freebase主題的110億次引用,它是由世界上研究資訊提取的研究人員開發的。
當我們談到知識集,我們指的是真實世界(或者虛擬世界)的結構化資訊,在許多其他應用中,人們能夠對文字進行語言分析。這些一般包括主題(概念和實體)、屬性、關係、型別層次、推理規則...知識表徵和人工、自動知識獲取的研究進行了許多年,但是這些都是遠未解決的難題。
Seth:那麼模糊性、名字匹配、代詞、回指等等各種各樣的指代都是挑戰的一部分。總體上,實體解析的技術發展狀況如何?
Enrique:指代確實是一個相關的難題,我認為它應該和實體解析一起被解決。
使用不同的資料集和測試集,結果會變化,但是表述式註釋目前已經達到了8-9成的正確率。大多數的資料集,像維基百科和Freebase,大部分是人工構建的,並沒有具體的應用,並且當使用者使用讓它們進行實體消岐時,總是出現問題。
Seth:知識層面的連貫性問題一般都會出現在哪裡?是在表達差異之中,定義不相容之間,某個瞬間的捕獲,或僅僅就是對事實的不同意?(以上就是我認為人類認知上最大可能產生不一致的原因。)從使用者的角度來看,不一致性是如何影響谷歌這方面表現的?
Enrique:各主題的不同報導深度,以及在不同的領域中不同層次的細節描述,是常見的問題。根據不同應用,人們可能想要調整解析度系統更偏向解決提到作為頭部實體或尾實體,以及某些實體可以人為提升的僅僅是因為它們是在一個更密集的,網路的更詳細的部分中的 知識庫。在此之上,模式被認為出去是本體論正確的,但例外情況發生一般;許多知識基地已建成透過合併資料集不同的粒度級別,從而引發和解問題;和維基百科包含未明確與其他即使他們顯然與他們的話題多「孤兒節點」。
Seth:例如,資料的綜合處理(curation)是一種解決方案嗎?就像IBM沃森和 Wolfram Alpha(一個能夠根據問題直接給出答案的新一代搜尋引擎)所使用的那種,或者這些挑戰能夠以演算法解決嗎?除了谷歌只來,還有哪些學術界或者產業界的公司在這方面做了有趣的研究?
Enrique:毫無疑問,手動資料處理manual curation可以提供部分解決方案解決方案。同時,如果我們希望可以事無鉅細地記錄那些冗長的事實資料,將所有資訊都手動新增進去並讓其保持永久更新,這是不現實的。自動協調現有的結構化來源,就像資料庫、圖書、體育比賽結果,等等,也是解決方案的一部分。我相信它將最終有可能應用在資訊提取技術方面,不管是結構化資料來源還是非結構化資料來源,但這也面臨著不小的挑戰。我之前提到過,「實體解析」系統的準確率在80%至90%之間。這意味著,對於任意自動提取的例項集,它們中有至少10%會被關聯到錯誤的實體中——這種錯誤意味著例項提取模型中的任何錯誤都會在頂部積累。聚合功能能夠有效的降低錯誤率,但這對於長尾來說就沒那麼有效了。
事情也有好的一面,那就是這個領域正在繁榮發展——在ACL、EMNLP和其他會議上的內容,足夠證明這個領域的飛速發展。透過對查詢的語義分析來回答Freebase(一個類似維基百科的創作共享類網站)上似是而非的問題,如何將深度學習整合至KB表徵和推理任務,更好的將目標和應用於實體解析的區域性模型結合起來,等等,這些都是在過去的十幾年中已經取得重要突破的幾個問題。
Seth:最後,自然語言處理領域內有什麼新聞和令人興奮的事情?
Enrique:一方面,整個行業在個人助理功能上正在快速創新——一個可以透過自然對話與人類互動的工具,瞭解人們的一切,包括他們的利益和需求等,回答他們的資訊需求,在規劃和記憶任務反面提供幫助,並能協助控制他們的裝置,以使他們的生活更舒適。自然語言處理等許多領域需要改進來使前面提到的長期願景成為現實,但我們已經開始看到它是如何改變我們的生活。
在另一方面,語言和實體之間的關係將有進一步的發展作為發展發生在機器人領域,我們將不只是能夠接地我們的語言分析了虛擬的知識基礎,但在實際的體驗。
來自breakthroughanalysis,作者Seth Grimes,機器之心翻譯出品。參與:Philip Liu,姜振東,趙雲峰,Sane Chen,Gabrielle Zhang,汪汪。
相關文章
- 柯潔大戰AlphaGo時,我們和谷歌雲機器學習負責人李佳聊了聊Go谷歌機器學習
- 谷歌開放全新自然語言資料集:多元化場景更詳細標註,讓 AI 助手更懂人類谷歌AI
- 谷歌SEO專業術語指南谷歌
- 多款重磅翻譯產品落地之際,我們獨家專訪了搜狗語音負責人王硯峰
- Google X負責人:谷歌錯在讓市場對谷歌眼鏡期望值過高Go谷歌
- Facebook AI 研究院負責人:相比百度和谷歌,我們有哪些優勢?AI谷歌
- 作為谷歌Waymo負責人,John Krafcik正在讓矽谷成為汽車之城谷歌
- Facebook、谷歌技術專家同心協力設計癌症研究遊戲谷歌遊戲
- Google X負責人:谷歌必須融入現實世界Go谷歌
- 丟人啊,專家們竟然說google的技術不行Go
- 谷歌開發技術推广部中國市場負責人欒躍:接軌世界、推動創新(圖靈訪談)谷歌圖靈
- 谷歌開源 BERT:最先進的 NLP 預訓練技術,支援中文和更多語言谷歌
- 專訪阿里雲 Serverless 負責人:無伺服器不會讓後端失業阿里Server伺服器後端
- 元件重用需要專人負責 (轉)元件
- 專訪丨小米遊戲負責人:請不要妖魔化渠道遊戲
- 如糖APP——招技術負責人APP
- 全球頂尖科學雜誌:阿里AI語音技術超越谷歌,可讀懂人類潛藏意圖阿里AI谷歌
- “我們不把谷歌稱為競爭對手”|《財富》專訪任天堂美國總裁谷歌
- 專訪谷歌Stadia業務主管:改變常規道路很坎坷,我們活得很好谷歌
- 谷歌大腦負責人談人工智慧:科幻變現實谷歌人工智慧
- 讓機器人學會理解語義概念:谷歌提出深度視覺新技術機器人谷歌視覺
- 專訪旦恩創投凌代鴻:創業10年讓我更懂創業者創投創業
- 谷歌大腦負責人:深度學習需要至少十萬個樣本谷歌深度學習
- Google AI負責人Jeff Dean:機器學習讓計算機更智慧GoAI機器學習計算機
- 做好技術的量的累積,實現業績的質的飛躍|專訪宜信財富技術負責人劉寶劍
- 專訪除錯專家張銀奎:讀古籍、作古詩的“別緻”技術人(圖靈訪談)除錯圖靈
- 自然語言處理 NLP 基本概念大全,讓非技術也能看懂 NLP自然語言處理
- 《神覺者》IP美術組負責人牧羊人專訪——“潮酷”都市神話的IP探索之路
- 谷歌拆分搜尋和AI部門:Jeff Dean任AI業務負責人谷歌AI
- 剛剛卸任的谷歌搜尋及AI負責人,被蘋果挖走了谷歌AI蘋果
- 獨立遊戲發行商 PLAYISM 負責人專訪:從採摘者到培育者遊戲
- 覆蓋40種語言:谷歌釋出多語言、多工NLP新基準XTREME谷歌REM
- Anthropic安全負責人:在超級AI「毀滅」人類之前,我們可以做這些準備AI
- 《自然》證實:計算機語言更類似人類語言計算機
- 挑戰蘋果谷歌:更強大的語音識別技術誕生蘋果谷歌
- 谷歌AI中國中心負責人李佳:改善人類生活需要 AI,而 AI 需要「四步走」谷歌AI
- 認知增強技術,讓人類變得更聰明
- 成為一個專案負責人後給我帶來的影響