追一科技楊雪峰博士WOT演講:閱讀理解應用與挑戰

追一科技發表於2019-01-09

在解決搜尋的最後一公里上,人類一直在不斷探索,從自動摘要知識圖譜到機器閱讀理解。追一科技高階研究員楊雪峰博士在WOT大會上,分享機器閱讀理解的前沿動態,企業服務落地應用中的困難與挑戰。

追一科技楊雪峰博士WOT演講:閱讀理解應用與挑戰

WOT2018全球人工智慧技術峰會11月30-12月1日在北京召開。通用技術、應用領域、行業賦能三大章節,13大技術專場,60+國內外一線人工智慧精英大咖站臺,分享人工智慧的平臺工具、演算法模型、語音視覺等技術主題,助力人工智慧落地。

追一科技亮相盛會,分享在前沿AI技術研發應用上的探索。追一科技高階研究員楊雪峰博士受邀主持WOT機器學習分論壇,並發表了「閱讀理解技術探索與企業服務中的應用」主題演講,介紹了機器閱讀理解的前沿動態和研究突破,應用落地中,追一科技如何解決諸如冷啟動、高併發和拒絕回答等一系列挑戰。

追一科技楊雪峰博士WOT演講:閱讀理解應用與挑戰

「從搜尋引擎的下一步,到今天在企業服務中多種探索應用,閱讀理解是目前自然語言處理裡面新興的、非常有挑戰、非常有實際意義的場景」。楊博士表示,在閱讀理解上,模型的複雜程度、資料量級等,都給了大家很大的操作空間,包括科技巨頭等都對閱讀理解趨之若鶩,紛紛刷榜各種比賽。

楊博士介紹說,追一科技也在努力探索閱讀理解的應用落地,包括客服培訓、專業諮詢、兒童教育等知識問答領域,都有閱讀理解的應用場景,但同時也面臨很多的挑戰,比如冷啟動階段的資料處理,金融私有化環境下如何提速、高併發,獲取新模型等等。

“我們會應用多種技術方案,實現綜合效果的最最佳化。”楊博士介紹說,追一會盡量提供給使用者智慧化的簡單有用的平臺,啟動之後,能夠不斷的迴圈和滾動最佳化,後續運營起來會越來越簡單。

以下為楊博士在本次WOT大會分享摘要:

閱讀理解解決了什麼?

追一科技楊雪峰博士WOT演講:閱讀理解應用與挑戰

楊雪峰博士在WOT演講

機器閱讀理解有很多形式,通俗的說就是針對給定的問題,從段落、上下語境中找到答案,答案可以是很多種形式,一個詞、片段、數字、符號都有可能,答案還有可能不在原先文字中,需要去總結出來的答案,這都是閱讀理解的不同的形式。

需要找到答案的形式不同,難度也是有很大區別的。

再說一下機器閱讀理解本身的意義。在解決搜尋的最後一公里上,人們不斷探索,從自動摘要知識圖譜到機器閱讀理解。

如果從實際角度來說,搜尋引擎公司是最關注閱讀理解的。之前大家經常會說“搜尋引擎目前還不夠好,大家在下一步要走向何方”?在比較早的時候,大家會說自動摘要Summarization是一個特別重要的方向。把蒐集到的網頁提取出一個摘要、簡略的描述,使用者在搜尋的時候,不點選進網頁就可能知道網頁是不是他想要的東西,主題是不是他關心的。

後來在2012年的時候,谷歌將本體語義網的技術應用到搜尋場景之中,而且重新起了一個名字Knowledge Graph,特別火爆,直接替代了在學術界慣用的一些名詞,現在成為了知識圖譜語義網、本體這些技術的統稱。

Knowledge Graph可以讓我們直接從結構化或者是非常半結構化的資料裡面找到針對問題的具體場景的答案。但是它的作用還是有限的,因為知識必須儲存在已經處理好的可以人工提取或者半自動提取的知識庫裡。它的成本是很高的,只能處理你處理過的東西。

閱讀理解幫助我們從一個完全無結構的文字當中,找到想要的答案。可以是一個網頁、一段文字、APP下的描述性文字,甚至是微信文章。直接幫你從網頁裡面去找到你最希望要的答案,可能是一個數字。比如問姚明身高,用知識圖譜,可能直接裡面存了一個節點,姚明這個實體和屬性身高,就是一個具體值。如果沒有這個知識,但是在網站百科或者某一個頁面裡有介紹姚明,介紹了身高多少,這時候用閱讀理解技術一樣去解決這個問題。

目前對這些技術最感興趣的就是各大搜尋巨頭,包括百度、谷歌、微軟

閱讀理解場景應用

結合追一科技這塊的探索,分享幾個閱讀理解的場景。

第一個是,需要快速教育引導新員工的場景。比如客服,是流動性很強的群體,而企業希望新人可以儘快的上崗。涉及讀一些操作手冊、業務常用文件,閱讀理解就可以起到作用。真實線上應用的時候,閱讀理解可以實時幫助員工,針對相關問題從需要學習的文件中找到答案,解決問題,避免犯錯,從而儘快上崗。

還有在很多金融領域裡面一些專業諮詢。比如說買某隻基金、諮詢一些問題的時候,客戶經理或者經紀,有些東西一樣是要查詢,如果有當時的文件和資料,也可以直接用閱讀理解的方式去查詢

第三個是General Knowledge QA。主要目前需求場景是在K12以下的給孩童用於教育應用的通用知識問答系統比如說兒童早教機,幼兒輔導。有些環節,隨便問一些問題就可以找到答案,相當於起到半娛樂、半豐富大家知識的功能。

在YiBot系統裡會有很多不同的子機器人和對話管理系統去銜接。有解決FAQ類的,有解決任務型、流程導航的,如訂機票、開基金;有針對閒聊的,針對查詢資料庫的,還有目前在嘗試落地的針對閱讀理解,知識在結構文件內。

在閱讀理解的流程是三個方面,第一個是Query Rewrite. 常用NLP裡Query Rewrite功能,分詞、命名實體識別、歸一化等。接下來是Context Searching,真正的侯選文件並不是一個文件,是一個文件集,上百篇上千篇段落,從裡面篩選出最有可能的Top 3,Top 3之後再進入MRC系統,找到一個真實的答案。

如何突破冷啟動

冷啟動這個問題在閱讀理解是非常難處理的。

不同的公司業務場景不一樣,但是目前閱讀理解很難說做出一個通用的模型去解決大家所有文件的直接問答的問題,這是不切實際的,目前達不到這樣的情況。所以,我們針對不同的業務的時候,會做很多不同的處理。

最難點就是資料問題,追一科技會給客戶提供比較智慧化的標註平臺。想讓客戶標註,建立起業務,就要把客戶的操作簡化成劃、點,只有用這些簡單的操作的時候,客戶才會願意去幫你做起來。必須要提供給客戶一個非常簡單易用的平臺,後續越來越簡單,甚至後續不用標註資料的形式, 可以直接給標註人員推薦問題。

萬事開頭難。最前面的標註是避免不了的,但是後續會越來越簡單。這時候我們也要求不能只標註我們推薦對的,因為這樣最終問題會趨向於幾類最簡單的問題,還要求讓他有些直接操作,必須給我們每天標註多少個,這樣可以發現實際的問題。

Unanswerable問題如何破?

有很多問題AI是回答不了的,如果回答不了,還隨意給一些答案的話,會造成非常嚴重的後果,特別是一些保險、金融行業,一旦遇到金融場景或者是跟錢相關的,都會比較敏感。

怎麼去解決這樣的問題,目前只能找到一些變相手段去緩解。

第一個當然是標註更多,人力去干擾的事情,這是隨著人力投入更多效果會更好的事情。第二個是不同的Context之間,把很多問題互動進行一些應用、資料的增強。把除了這個答案之外的片段進行各種組合,文字的變換,去重,和其他的文字進行變換,變相的達到一種增強。

未來還有很多挑戰值得我們去做。

客戶在CPU機器上,可能還想不斷疊加資料之後訓練新的模型。因為金融模型都會要私有化部署,資料整個東西都是接觸不到的,客戶希望是一個閉環系統。這種情況下,想要在CPU機器上去訓練這樣的模型,目前階段是非常有挑戰的事情,基本上說不可能,他可能等一週,那種情況下這個東西就不可用了。

還有更高一級的,Yes或者是No的邏輯

大部分客戶問問題的時候,並不會非常直接問文件裡面找到的問題,而是更傾向於一種文字蘊含的形式,判斷使用者說的邏輯與企業的文字里面描述的邏輯,是不是一個意思,只要告訴使用者Yes或者是No。後續追一科技還會去支援這樣情況的閱讀理解,判斷是否是一樣資訊、一致意思的功能。

最後,就是目前產品過程中都只是像SQUAD,答案必須是連續片段,沒有自己生成,後續也許會新增,從文字當中自己生成這樣的東西。

楊雪峰博士簡介:

追一AI Lab 高階研究員,新加坡南洋理工大學博士。

主要研究方向為文字的向量化表達,語義匹配,閱讀理解,資訊抽取對話系統

楊雪峰博士在智慧服務、金融科技等領域的AI技術落地有多年經驗,現在追一科技主要從事前沿技術探索與實踐工作,主導閱讀理解技術相關產品。深圳市海歸高層次人才,CMRC2018閱讀理解比賽冠軍。

相關文章