中國AI的底牌與前路:王海峰團隊十篇論文入選ACL的價值釋讀

naojiti發表於2019-05-26

今年的自然語言處理領域頂級會議 ACL已經放榜,每每AI頂會放榜之時,也是科技企業們集體關注自身學術研究進度的時候。近年來隨著中國科技企業對AI技術的研究日益深入和產學結合的趨勢發展,各個AI頂會上科技企業的出沒也愈發頻繁。從某種程度上來說,一家科技企業被頂會收錄論文的數量,也體現了這家科技企業在AI自主創新上能力。

在ACL 2019中有效投稿數量達到2694篇,相比去年增長高達75%。值得關注的是,百度共有十篇論文被收錄,覆蓋了資訊抽取、機器閱讀理解、對話系統、視訊語義理解、機器翻譯等NLP前沿研究方向。對於科技企業來說,這已經屬於在國際頂會上能取得的里程碑式的成績。

提起ACL,不得不讓人聯想到百度高階副總裁王海峰博士——2010年加入百度的王海峰一直橫跨產業和學界兩個領域,還在曾在2013年出任ACL首任zhuxi。在這樣NLP領域領軍人物的帶領下,百度在ACL 2019取得的成績並不意外。

其實現在像王海峰和百度這樣科學家與科技企業的組合並不少見,我們或許可以嘗試從王海峰個人身上,尋找科學家與科技企業共同產生化學反應所需要的特質,看看AI自主創新是如何在這種化學反應下生長的。

一重反應:從學術遠見汲取養分

雖然王海峰在2010年就加入了百度,但大多數科技企業是在AI大潮開始之後開始與科學家們牽手。從2015年開始,從海外的谷歌、Facebook,再到國內的科技巨頭,都開始邀請學界科學家加入、建立屬於自己的研究院。其中原因在於,AI本身就是一種誕生於實驗室,受學術研究所驅動的技術。一家企業是否在學術上具有先進性,幾乎決定了這家企業在AI技術方面的創新能力。

同樣王海峰為百度帶來的,也是學術視角上的遠見。

王海峰對於NLP前沿方向的關注,可以追溯到在哈工大就讀期間,在博士畢業論文中,王海峰就率先將神經網路方法引入機器翻譯中。在隨後的工作經歷中,王海峰也一直與AI學術界保持著密切的聯絡,像在百度就職期間,王海峰還出任了ACL亞太分會AACL創始 zhuxi 、IEEE工業顧問委員會委員等等權威學術組織、會議的職務。

作為科學家,與權威學術組織的密切聯絡,讓王海峰可以幫助百度AI很多次踩中AI發展過程中的高點。舉例來講,在很多人尚不知知識圖譜為何物時,百度的知識圖譜技術就在王海峰的支援下逐漸成型,並且在今天為百度AI技術體系提供大量底層支援。對於知識圖譜這類需要大量投入累積的技術來說,遠見之下的率先投入,將為百度帶來顯著的先發優勢。

如果將AI自主創新想象成一顆大樹,學術視角的遠見就是這顆大樹深入土壤的根系,源源不斷地從學界汲取著養分,支撐整棵大樹的成長。

二重反應:用產業視角推動生長

前文提到,科技企業與科學家的組合已經日漸普及。一些在學界堪稱風雨人物的科學家,例如李飛飛、LeCun等等,都有企業任職的經歷。可以說對於科技企業來說,獲取學術視角並非十分困難。

但我們注意到,王海峰和很多科學家不同的是,他從2010年加入百度距今已經將近十年,比大多數科學家更早接觸產業、也擁有更豐富的產業經驗。因此王海峰得以將學術視角與產業思維相結合,在他的影響下,因此我們可以看到百度AI創新通常是在產業思維框架下進行創新。

在百度大腦中,這種趨向格外明顯。作為向產業生態輸出技術的平臺,百度大腦將百度在AI上領先性化入技術API和產品之中。例如推出針對人臉閘機、人臉核驗等等專項解決方案,以及遠場語音開發套件這樣的硬體產品與服務。

這類能夠直面應用環境的技術平臺,可以幫助百度AI更快進入現實場景中進行錘鍊並獲得反饋,幫助百度那些偏於基礎和學術角度的技術創新可以有實際的流向,對企業整體技術生態帶來正向驅動,保持AI自主創新的持續性。

同時藉助王海峰對產業的深入理解,也能讓百度AI對產業需求有著更敏感的感知。例如推出第一款開源中文深度學習平臺PaddlePaddle,就是從產業角度意義非凡的創新突破。一個獨立自主深度學習平臺的存在,可以保證百度AI以及整個中國AI產業在進行技術輸出時獲得更多保障。從巨集觀角度來看,同樣也給予了AI自主創新更長線的支援。

在大樹生長的過程中,雖然學術視角提供了營養,但只有結合產業思維,才讓枝丫有了抽條生長的可能性。只有AI創新更具實際意義,創新能力才有了在一家企業裡不斷生長的可能。

三重反應:人才虹吸下的拓張繁茂

這也是為什麼,能夠招攬來科學家的科技企業不在少數,而真正能與科學家一同推動AI自主創新的企業卻寥寥無幾。

而這種在產業和學界都能佔據高位的特點,還為王海峰帶來了另一項重要特質,那就是對人才的吸引和甄別能力。對於企業來說,能夠保持科技創新能力不僅僅需要一位“王海峰”,還有持續的人才補充和更迭。

王海峰的學術能力和在學術組織中的權威性,讓他可以有能力幫助百度吸引來更多學界人才;而在產業中累積的經驗和思維模式,能夠讓他發現哪些學界人才的學術能力更加適合百度。我們可以看到,從早期的吳華到近年來的Kenneth Church、浣軍等人,這些專家有的本在史丹佛這樣的頂級高校任職,有的已經在學術領域聞名遐邇,最終都被百度和王海峰所吸引,為百度AI添磚加瓦。

在人才的不斷組建之下,百度AI可以實現規模化的創新。尤其在視覺、語音、語言與智慧等等領域中,這些科學家們正源源不斷的貢獻著力量,學術層面和應用層面皆是如此。

就像在上個月剛剛放榜的國際視覺頂會CVPR上,百度同樣獲得了17篇論文入選的好成績。而在自然語言處理首席科學家吳華的帶領下,百度大腦已經推出了全新的智慧對話引擎,引導對話技術進行工業級落地。

從王海峰個人的學術能力來說,帶給百度AI的更多是NLP方面指引。但結合由王海峰協助編織起的人才網路,就能給予百度AI創新全面能力的補充。藉助養分與生長能力之上不斷擴張繁衍,最終形成一片密林。

跳脫框架、前沿創新:科學家在科技企業中的價值最大化

在這一系列科學家與科技企業的化學反應之下,不難發現百度AI正在自主創新之路上留下一個個穩固的腳印——這次入選ACL的論文主題中就可見一斑。

ACL對於中國科技企業來說並不陌生,此前搜狗、科大訊飛等等企業也曾參與過投稿或ACL組織的競賽,並獲得了一定成績。例如科大訊飛曾在ACL下屬組織主辦的第十二屆國際語義評測比賽中獲得基於常識的機器閱讀理解全球第一;位元組跳動在去年也曾被收錄過針對於中英,德英和英法三個標準資料集上,有關神經網路機器翻譯動態解碼機制的論文。

但這些科技企業,再對頂會的攻堅上和百度有著一個顯著的區別。那就是相比百度,這些企業更傾向於在現有的框架和資料集上進行突破鑽研,傾向於在指定的方向上前行。像在某一個競賽中取得名次,或針對某一標準資料集推出演算法改進。而百度則更傾向於跳出現有框架之外,去探索更前沿的陌生領域。

像在這次ACL收錄的幾篇論文中,百度AI就提出了包括基於注意力正則化的ARNOR框架(Attention Regularization based NOise Reduction)、語言表示與知識表示深度融合的KT-NET模型、多粒度跨模態注意力機制、基於端到端深度強化學習的共指解析方法等,在人機互動、智慧客服、視訊理解、機器翻譯等場景中具有很大的應用價值。

正因為在自主創新上的遠見和高度投入,才能讓科學家在科技企業中的價值最大化,不斷讓百度AI踩中技術發展的關鍵拐點。

結束語

一家科技企業在一次頂會上取得的成就,就如同一場搶灘登陸戰,即使打得再“漂亮”也僅僅是個開始。只是這場戰役讓我們注意到了科學家這一至關重要的元素,以及科學家和科技企業之間所產生的化學反應。

從百度AI和王海峰之間的案例看來,我們可以發現一位科學家的學術能力和產學融合視角,再加上人才號召能力,能夠幫助企業在AI的淨技術研究、應用打造和場景佈局中不斷取得自主創新突破。讓AI自主創新能力紮根、生長並不斷繁殖。王海峰在其中的作用就如同一位鍊金者,推動不同元素的碰撞最終迸發能量。

如今在科技產業深受大國博弈影響的背景之下,我們也愈發能夠感知到百度這種全鏈條AI自主創新能力的重要性。此時釋出在國際頂會上的論文、開發者手中屬於中國的開發平臺以及那些源源不斷進入應用層面的技術介面,對於百度AI和整個中國AI產業來說,都是在增加手中的底牌,為未來不斷加碼。

從學界賦能產業,卻又不止於產業,或許這就是科學家與科技企業,能夠形成的最好的化學反應。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2645566/,如需轉載,請註明出處,否則將追究法律責任。

相關文章