十年藍圖與產業升級:百度NLP給你的七夕禮贈

naojiti發表於2020-08-25

七夕是什麼?

對於中國人來說,七夕絕不僅僅是一個關於愛情和浪漫的節日記憶。它是對美好的詩性眷戀,對想象的包容,對不可能的掙脫,對星辰大海與人間煙火的歸一。

而今人與古人最大的區別在於,今天我們有了科學的工具。在古人只能想象牛郎織女的故事時,在同樣的七夕,今人可以自己動手去變不可能為可能。

英國詩人塞繆爾·約翰遜說,語言是科學的唯一工具。古時候,人類很早就有了巴別塔的傳說,希望讓不同國家、族群的人享受無界限的語言;而在今天,各行各業都需要語音、語義、知識相關的自然語言技術,來提高產業智慧化水準,升級工作間的溝通與交流效率;面向未來,人類還希望通過自然語言與機器對話,與萬物互動,讓語言跨過人機互動的界限。

這些希望,就像這個時代關於牽牛織女的夢境,但區別在於,這個七夕有人正在努力讓夢境變成現實。並且為了這個目標,他們已經奔跑了整整十年。

用技術破解語言的謎題的實現方式,就是AI的重要分支NLP技術。而國內最著名的NLP技術團隊與產業旗幟,就是百度NLP。

8月25日七夕這天,以“掌握知識、理解語言、擁有智慧”為主題的百度大腦語言與知識技術峰會線上上開啟。百度CTO王海峰發表主旨演講,解讀百度語言與知識技術的發展歷程與最新成果,與產學研各界分享技術及產業發展趨勢和展望。

百度集團副總裁吳甜和百度技術委員會主。席吳華分別釋出百度語言與知識技術系列產品和資料集共建計劃,推出3大新品和6項升級,全面加速NLP技術大規模產業應用。

成立十年以來,百度NLP團隊始終都是中國NLP在學術探索與產業落地方面的雙向引領者。王海峰認為,“在百度語言與知識技術的佈局和發展中,我們始終在注意把握兩個趨勢,即技術發展趨勢和產業發展趨勢,併力爭引領趨勢。”

從研究方法、研究物件、研究方向、產業應用等各個層面來看,百度NLP都是今天中國佈局最完整,與產業接軌最成熟,技術前沿性最豐富的產業力量。十年來,百度在NLP領域獲得包括國家科技進步獎在內的20多個獎項,30多項國際競賽冠軍,發表學術論文超過300篇,申請專利2000多項。同時也積極推動NLP技術產業落地,與行業發展緊密結合,將NLP技術優勢平臺化開放給廣大開發者,引領智慧語言技術與千行萬業結合。

如果說,古人想象的最大界限,就是牛郎織女間的銀河,那麼全球化的今天,人與人、人與機器間的最大界限,就是語言的界限。神話的鵲橋橫穿銀河兩端,今天百度NLP所做的事情,就是為智慧時代搭建一座新的語言鵲橋。解析這場峰會,我們可以讀懂:

過去十年,百度打造了怎樣的NLP藍圖?

此刻的產業機遇期,百度如何為千行萬業提供NLP的動力與加速度?

面向未來,人類的新巴別塔上,還有哪些待解之謎?

一座語言的鵲橋,在此刻的煙火塵世與未來的智慧時代間凝結——以百度NLP之名。

往昔的耕耘:十年蘊育百度NLP藍圖

十年發展的百度NLP,確實已經積累了太多技術、應用與產業案例。但百度今天的NLP實力,又是牢牢建立在過往十年的產業發展底座上。所以在百度大腦語言與知識技術峰會中,王海峰首先全面分享了百度在語言與知識技術領域的完整佈局和最新成果。為我們展示了一張歷時十年,耕耘而出的百度NLP全景圖:

在堪稱NLP底座的知識領域,百度打造了世界上最大規模知識圖譜,擁有超過50億實體和5500億事實,並在不斷演進和更新。百度知識圖譜應用於各行各業,每天的呼叫次數超過400億次。

在此基礎上,百度不斷強化堪稱NLP核心的語義理解技術能力。2019年3月,百度提出知識增強的語義理解框架ERNIE,在深度學習的基礎上融入知識,具備人類一樣的學習能力,曾一舉登頂全球權威資料集GLUE榜單,首次突破90分大關。基於知識圖譜和語義表示,實現了閱讀理解、對話理解以及跨模態深度語義理解。

為了讓人機互動自然流暢,語言生成技術是NLP體驗的關鍵。基於預訓練技術的成功經驗,百度提出基於多流機制的語言生成預訓練技術,兼顧詞、短語等不同粒度的語義資訊,顯著提升生成效果。百度也探索了多文件摘要生成,通過圖結構語義表示引入篇章知識,在單文件和多文件摘要生成效果都有提升。

這些技術藍圖流入產業譜系,就構成了百度NLP技術在應用層面的深耕與實踐。在對話系統領域,百度提出了知識圖譜驅動的對話控制技術,以及首個基於隱空間的大規模開放域對話模型PLATO等,並推出智慧對話定製和服務平臺UNIT,可幫助開發者高效構建智慧對話系統,實現規模化應用。

在另一個重要的NLP應用機器翻譯領域,百度翻譯目前能夠支援200多種語言,每日響應超過千億字元的翻譯請求,支援超過40多萬家第三方應用,技術上,提出了多智慧體聯合學習、基於語義單元的同傳模型、稀缺語種分組混合訓練演算法等。

百度大腦語言與知識技術的探索,同時還以平臺化的方式輸出,賦能千行萬業,提升社會生產的普遍智慧化水準。

從這張根據公開資料整理的全球NLP巨頭產業佈局對比圖中,我們可以發現百度NLP在核心技術、產品應用佈局,以及研發力量儲備上,都已經具備了國際一流水準,可以與谷歌、微軟兩大AI巨頭一教高下。百度NLP的產業成績,已經客觀達成了國內最強、世界頂級,開啟了代表中國NLP產業向未來航行的領軍者態勢。

十年蘊育成了百度NLP藍圖,同時也蘊育了百度在語言與知識領域的不斷突破與創新能力。今天,百度NLP並沒有停下腳步,而是為千行萬業與廣大AI開發者帶來了最浪漫的七夕禮物。

此刻的浪漫:5款新產品、2大計劃,推動NLP邂逅產業

推動NLP技術走向產業,融入智慧化程式,是以深度學習為代表的AI第四次興起週期中最重要的產業議題之一。而這一目標,是建立在大量可規模化複用、能夠支撐工業級應用的NLP技術與產品基礎上的。為此,百度在七夕這天帶來了重磅的NLP禮物——百度集團副總裁吳甜接續釋出文心(ERNIE)、TextMind、AI同傳會議解決方案、智慧創作平臺、智慧對話定製與服務平臺UNIT等5款新產品:

百度推出的語義理解技術與平臺文心(ERNIE),基於深度學習平臺飛槳打造,提供一站式NLP開發與服務,將減少開發者90%資料標註量、90%算力投入、85%模型開發時長,進而全面降低NLP定製開發的成本,讓開發者更簡單、高效地定製企業級NLP模型。

全新發布TextMind智慧文件分析平臺,基於OCR、NLP技術,以文件解析為核心能力,支援文件對比與文件稽核,具備“多快好省”的核心優勢,促進企業辦公智慧升級。

全新發布AI同傳會議解決方案,覆蓋會議全場景、全流程,旨在打造使用者隨身的“會議同傳專家”。在邀測期間,百度AI同傳會議解決方案已經支援了上百場會議,覆蓋數十個領域,包括線上遠端會議、線下會議。

百度大腦智慧創作平臺針對媒體應用場景再升級,全新推出智慧策劃、智慧採編、智慧審校三大媒體場景方案,進一步助力媒體效率,加強採編能力。

智慧對話定製與服務平臺UNIT升級3大特性:更智慧的任務式對話理解、極致便捷的表格問答和融合通用的新引擎。截至目前,UNIT平臺已有2.7萬開發者,10萬應用,累計互動4200億,並積累知識2.4億。此次UNIT全新推出的三大能力,將進一步降低任務式對話、智慧問答的定製成本,並融合通用對話能力,提升互動體驗。

在NLP產業化落地中,另一個長期挑戰是資料匱乏、算力不足。為應對挑戰,百度聯合中國計算機學會、中國中文資訊學會發起全球首箇中文自然語言處理資料共建計劃——千言,解決資料稀缺問題。

千言一期由來自國內11家高校和企業的資料資源研發者共同建設,已涵蓋開放域對話、閱讀理解等7大任務,20餘個中文開源資料集。百度技術委員會主。席吳華表示,百度計劃在未來3年,面向20餘個任務,收集和建設不少於100箇中文自然語言處理資料集,覆蓋語言與知識技術全部領域。

吳華還發布了百度語言與知識技術算力共享計劃,通過百度AI STUDIO平臺提供算力支援,讓廣大開發者破除算力桎梏,專注於技術創新。

全新的技術、產品與產業合作計劃,構成了百度NLP與千行萬業智慧升級進一步“相知相戀”的契機。在這個七夕裡,最好的禮物是美好的未來,而這也是百度NLP的長久努力方向。

未來的銀河:從NLP到智慧時代

十年堅守,是為未來。

在AI技術推動第四次工業革命到來的關鍵契機中,NLP技術構成了變局的核心。從技術特徵上看,NLP最大的潛力在於其探索深度是近乎無限的,並且將始終激發新的需求、新的產業邏輯與落地場景。

無論是從百度過往佈局的技術藍圖,還是今天推動的新技術、新產品,百度NLP始終在指向巨集偉的未來,也就是百度NLP在部門成立時提出的“掌握知識、理解語言、擁有智慧”。為了不斷走近NLP指向的智慧時代,百度NLP始終堅持人才為本,不斷在發展過程中培養、吸引全球頂尖人才,為長期發展探索做出堅實準備。在峰會上,百度推出以王海峰為代表的百度NLP“十年十人”,也正是他們的十年堅守,不忘初心,才讓NLP技術從科幻作品中走到現實,變成通往未來的康莊大道。

今天的NLP技術發展,還遠遠沒有走到盡頭。雖然百度NLP成果輝煌,但我們眼前更多的是未知與挑戰。峰會上,王海峰也提到了語言與知識技術發展面臨的難題。他表示,複雜知識表示和快速構建技術,知識與深度學習進一步融合,深度融合感知和認知的跨模態語義理解技術,模型可解釋性和魯棒性等等,仍有很多技術難題需要持續研究和解決。

而正是始終有未知,始終在探索,才讓未來的銀河絢爛於今夜的七夕。百度NLP的技術藍圖、新品釋出,更遠處指向著智慧時代的洪流,指向著解開語言之謎的可能與執著。

關於百度NLP的未來發展,王海峰提出:“我們致力於更好的與學術界、產業界攜手,推動語言與知識技術發展,進而推動人工智慧技術持續進步,為產業持續升級、社會經濟高質量發展貢獻力量。我們對未來充滿信心,堅持掌握知識、理解語言、擁有智慧,繼續突破和創新,為技術和社會進步做出更大貢獻。”

當自然語言的奧祕,邂逅千行萬業的智慧化升級——金風玉露一相逢,便勝卻人間無數。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561483/viewspace-2714654/,如需轉載,請註明出處,否則將追究法律責任。

相關文章