追一科技劉雲峰:今年是NLP技術大年,要做全棧的AI公司
NLP之外,追一科技也在擴大語音和視覺團隊,構建語義、語音、多模態等AI技術的閉環。
“我上個月在南京的差旅住宿,花了多少錢?”
“我上週五透過信用卡消費了多少錢?”
……
上述問題,聊天機器人可以立刻給你答案。
讓機器讀懂我們的的語言,並且輸出我們能明白的回答,這個過程就需要自然語言處理(NLP)技術的支援。 換句話說,NLP充當了機器和人類之間的翻譯工作,它在諸多AI應用中發揮著關鍵作用。
與熱門的計算機視覺、語音識別等技術相比較,研究NLP的創業公司相對少很多, 追一科技便是國內首批從事NLP技術和深度學習的企業智慧服務AI公司,李開復曾公開表示,“追一科技是國內乃至全球最好NLP公司之一。”
就在最近, 由追一科技主辦的首屆中文NL2SQL挑戰賽在南京落幕,從全球1457支隊伍中脫穎而出的五支隊伍角逐最後的冠軍,在此期間, 鎂客網採訪了追一科技的聯合創始人兼CTO劉雲峰,探討了當前NLP技術的發展和應用落地情況,以及追一科技在NLP技術浪潮中扮演的角色。
NLP是AI的關鍵一環,追一已經做到技術落地
通常情況下,我們會把AI分為“感知”和“認知”兩個部分。其中,計算機視覺和語音識別屬於感知部分,而自然語言處理(NLP)則是認知部分的重要內容。從這個層面去解讀,NLP的研究難度比計算機視覺乃至語音技術都要更上一層樓。
但NLP的發展歷程比計算機視覺乃至語音理解都要早,早在上世紀50年代,電子計算機的出現,就帶來了許多自然語言處理的任務需求,其中最典型的就是機器翻譯。 而我們最為熟悉的NLP應用則是網頁搜尋,從海量的文字中進行自然語言的資訊檢索和抽取。
伴隨著大資料、深度學習技術的應用,NLP也進入了一個新的階段,用劉雲峰的話來說,“以前我們只需要機器理解人的語言,但現在的自然語言理解, 是希望機器像人一樣具備一定的常識和思維推理能力,這已經比以前期望值高很多。”
相應的,圍繞NLP的創業,技術門檻自然很高,這也恰恰是追一科技的一大優勢。
追一科技的主要創始團隊中有三人來自騰訊,創始人兼CEO吳悅是原騰訊TEG事業群搜尋部門負責人,主持構建了騰訊分散式檔案系統、大資料叢集、大網頁搜尋引擎推薦引擎等重要專案;CTO劉雲峰在騰訊從事搜尋技術、自然語言處理、機器學習方向的研究長達十年,在NLP領域有著豐富的技術和實戰經驗。
成立之初,追一科技從智慧客服切入,舉個例子,透過追一科技的AI技術解決方案,可以直接和客服機器人進行“正常語言”的交流對話,比如詢問賬單情況、幫忙訂張票、查詢附近最近好吃的餐廳等等。
經過三年的發展,他們已經構建了智慧語義和演算法平臺等AI技術棧,打造了以知識為驅動的數字員工產品族, 包括智慧客服、數字催收、資料質檢、上崗培訓、使用者畫像、反洗錢分析、警情分析等。
目前,追一科技的智慧服務解決方案,從客服機器人到人機協同等, 也已經在招商銀行信用卡、中國移動、萬達、攜程等企業中應用落地。
發起NL2SQL挑戰賽,今年會是NLP技術大年
在和企業客戶打交道過程中,追一科技發現 很多企業客戶的知識和資料都是以資料庫的形式儲存,問題隨之而來,能不能基於資料庫去解決一些互動的問題,NL2SQL(自然語言轉結構化查詢語句)就是答案。
NL2SQL是NLP的一個研究方向,可以將人類的自然語言自動轉化為相應的SQL語句,進而與資料庫直接互動、並返回互動的結果。比如我們問:大眾10萬到20萬之間的車型有幾種?NL2SQL可以讓機器理解這樣的自然語言,並從表格中檢索出答案。
當前,研究NL2SQL的企業非常少,劉雲峰表示在年初NL2SQL挑戰賽之前,國內除了微軟,就是追一科技在做。
所以, 為了開啟這個新興垂直技術的天花板,他們發起了此次NL2SQL挑戰賽。比賽同期追一科技還發布了業內首個大規模的中文資料集,包括4870張表格資料、近50000條標註資料以及相應的SQL語句。
從比賽初期的60%準確率,到複賽結束時最高92%的準確率,劉雲峰也非常意外,“這個結果比同類資料難度更低的WikiSQL成績還要好, 說明我們在基礎技術的研發方面,已經追上甚至超過了國外同行的技術水平。”
不過他也表示,雖然此次釋出的資料集已經覆蓋了10多個行業,也具備了一定的泛化能力, 但技術真正落地還有很多工程化的工作,比如行業是否有這樣的資料的積累,資料表格的複雜度以及文字的歧義等等,都需要針對垂直行業做進一步的調優。
談及舉辦這次比賽的初衷,劉雲峰表示, “從AI的發展規律來看,一個技術如果有專門的技術挑戰賽,會加速它的產業化落地,比如視覺領域的ImageNet,這些公開測試集或者挑戰賽出現的時間點,恰好都是這個技術從論文走上產業化的臨界點。”
劉雲峰也強調,從技術成熟度來看,業內已經解決了很多NLP的基礎問題, 今年會是NLP的大年,但是落地到場景上會有一、兩年的延後。“之後NLP會進入到技術成熟階段的爆發期,能夠解決一些更為複雜的任務。”
NLP之外,做全棧的AI公司
“互動”是追一科技產品的核心方向,除了早期的文字、語音互動,採訪中劉雲峰透露, 追一科技正在做“多模態互動的數字人產品”,這是一個區別於虛擬主播等朗讀型機器人的互動型產品,囊括了語音技術、自然語言處理、視覺三大領域的技術,並且擁有自我進化的能力,能夠對資料知識歸類分析總結,自我學習。
“這個虛擬形象的表情、肢體動作會和說話內容相匹配,可以做到實時的對話互動。”
劉雲峰認為, “未來頭部的AI公司一定是全棧的AI公司。”也就是說,每一個AI公司既要有自己最核心、最拿手的方向,對其他技術也需要了若指掌。
所以, NLP之外,追一科技也在擴大語音和視覺團隊,構建語義、語音、多模態等AI技術的閉環。
目前他們已經做到語音技術的閉環,而且相較於通用的語音識別, 追一科技更關注語音互動領域的歧義問題,提高上下文場景裡的語音識別準確率。視覺方面,追一科技也更加關注互動所需要的視覺理解,比如使用者的手勢識別指令。
上文所提到的“數字人”產品就是追一科技在語音、視覺、NLP三大技術上的“集大成者”。
最後,談及NLP的大規模商業化問題,劉雲峰認為要解決共同化和平臺化的問題,企業服務的特點是定製化需求多,所以要做到“配置即定製”,將產品“PaaS”化,加強產品化能力以及與合作伙伴的黏性,更高效地解決企業需求。
結語:
哪裡有語言,哪裡就有NLP發揮作用的地方。正如劉雲峰所言, NLP這兩年在語言模型等基礎能力上已經有所突破,下一步要完善的就是技術落地到商業場景中的工程化問題。
從論文到工業應用,技術的傳遞鏈在加速,追一科技要做的就是解決好垂直領域的知識問題,在技術應用爆發到來前,做好準備。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2660469/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 從技術到醫療,雲知聲全棧AI技術為智慧醫療加碼全棧AI
- 剖析公司技術棧
- JSer全棧化技術棧推薦(一)——原生移動端是天堂還是泥潭JS全棧
- 全棧技術導圖全棧
- 面試了 Hypref 技術棧的公司面試
- 快速創業之全棧技術棧創業全棧
- 雲知聲立足全棧AI智慧技術,口語評測賦能英語教育全棧AI
- 公司技術棧用到了ElasticsearchElasticsearch
- 要不要做全棧工程師全棧工程師
- 影片結構化技術棧全解析
- 全棧式web開發技術-List全棧Web
- 杉數科技,是一家怎樣的非典型AI公司?AI
- 值得學習的技術人——阮一峰
- 在IT行業,科技公司,技術重要還是市場銷售重要!行業
- 股票峰迴路轉是什麼意思?峰迴路轉的技術特徵特徵
- 全棧為方,普惠為向:華為雲AI的2019全棧AI
- wemall全棧移動商城技術架構分享全棧架構
- Java全棧工程師需要掌握哪些技術Java全棧工程師
- 全棧 - 17 NLP 使用jieba分詞處理文字全棧Jieba分詞
- RTX顯示卡實時光線追蹤技術解析 英偉達RTX顯示卡的光線追蹤技術是什麼?
- 邀請函丨 華為雲 TechWave 雲原生 2.0 技術峰會
- ELK技術棧實踐(一)
- 面向視訊的全新AI架構 —— 阿里雲智慧視覺技術全解AI架構阿里視覺
- 6大新品重磅釋出,華為雲全棧雲原生技術能力持續創新升級全棧
- 全棧工程師技術學習路線圖全棧工程師
- Spring Cloud微服務-全棧技術與案例解析SpringCloud微服務全棧
- 騰訊雲CDB的AI技術實踐:CDBTuneAI
- 聊天機器人(Chatbot)開發:自然語言處理(NLP)技術棧機器人自然語言處理
- “全棧開發者”是一種心態 - Maciej Walkowiak全棧Mac
- 搜狗數字家庭醫生AI技術秀翻「我是未來」全場AI
- 雲技術是軟體技術,並非硬體技術
- 什麼是全棧開發者全棧
- 恆訊科技分析雲服務的核心技術
- [NLP] 知識抽取技術
- 《JavaScript快速全棧開發》作者Azat Mardanov:現在是擁抱Node技術棧的最佳時機(圖靈訪談)JavaScript全棧圖靈
- 全圖化引擎(AI·OS)中的編譯技術AI編譯
- RedHat 技術棧都有哪些,一文快速瞭解雲服務Redhat
- 阿里NLP總監分享-NLP技術的應用與思考阿里