微軟亞洲研究院副院長:語言智慧的未來

ljrj123發表於2019-08-15

(一)有了大資料、神經網路、不斷完善的網路結構、雲端計算、落地場景、未來的NLP會發展的越來越好。有幾點預測:

1、未來的口語機器翻譯一定是普及的,出國的語言交流將不是問題;

2、聊天系統越來越實用;

3、電腦創作詩詞,小說,歌曲將會流行起來;

4、語音助手,物聯網,智慧家居,智慧硬體等等都會因為自然語言的發展而普及起來;

5、與其他AI技術一起再金融、法律、教育、醫療上得到廣泛應用。

整體上人工智慧會提升人的生活質量,普惠所有人,因此我認為自然語言是未來的一個很好的方向。

(二)自然語言領域還有哪些的題目還能選呢?

神經網路機器翻譯還可以在做,例如生詞、篇章級的處理還不好,而且領域遷移做的不好,這些領域還可以進一步研究。第二個思路,用小資料集來訓練機器翻譯系統。

第二個方向,針對問答系統(QA),除了可以針對知識庫來做,還可以無結構的文字集,表格圖片。第二個和QA有關的是語義分析。

第三個方向是多輪對話,如何更好地建模上下文,甚至使用者的不同時期的回覆來生成好的回覆。

最後還有很多跨學科跨領域的地方,例如歌曲創作等等。

而未來創業呢?主要考慮場景,先從市場需求出發,反推需要的技術。需要大家瞭解市場,可以透過在公司實習,瞭解實際需求,來反思學校學到的東西,哪些是用的上的,哪些還不行。也許可以發現我們未來創業的機會。

(三)影片現在是現象級的事件,發展很強勁,那麼關於影片,它和自然語言怎麼結合,未來會爆發出哪些和自然語言有關的應用場景?

現在的趨勢是圖文結合越來越緊密,一個圖用關鍵詞和一段話進行描述,而影片也是一樣的 ,這方面的研究是方興未艾,沒有做的很好,假設這個技術越來越好的情況下,就能產生很多應用。

把物理和數字聯絡起來,例如用照相機對實物拍照時,電腦已經知道這個圖景的屬性,將這些屬性再經過自然語言處理,就可以自動的翻譯識別,生成一個視覺化報告,可以完全聯動起來。

我們可以設想一個照相機的場景,照相機照完後,自動將圖片的一系列資訊展示出來,而處理對一系列時序圖片,就相當於是對影片的處理,我們就能知道影片出現的人物、物體和事件等等,可以得到文字描述。將來或許也我們也就可以是輸入一段文字,透過圖或者一小段影片表達出來,這樣圖文的互相轉化會產生新的的機會。

(四)現在已經有很多團隊開始影片理解方面做研究,未來根據圖片,文字生成影片這款,您感覺會需要多少時間?

這首先要有資料集 ,這些資料應該是有一個影片或者圖片對應的描寫是什麼,但目前來看這方面資料還不夠,而為了廣泛的應用,我們需要對常見的影片情景做各種人工資料採集。基於這個,再進行神經網路的編解碼訓練,所以我猜測,如果有資料集,三年之內常見的圖文轉化的應用都會被做掉。

(五)相關技術

自然語言的這些研究也不是孤立的,實際上它的周圍有一些支撐技術,比如說 使用者畫像 。基於使用者畫像,可以提供個性化的服務。

雲端計算 使得訓練速度加快,並且很容易的部署,然後機器學習和深度學習,在資料提供的條件下,自動學習其中的知識、建模,然後部署到真正的系統裡面。

還有是 知識圖譜 ,包含具體領域的一些知識圖譜,比如說金融領域的,或者是常識意義上的知識圖譜。

所有這些技術綜合起來,使自然語言的任務做得更好。



  由靈玖軟體研發 NLPIR 大資料語義智慧分析技術是滿足大資料探勘對語法、詞法和語義的綜合應用。 NLPIR 大資料語義智慧分析平臺是根據中文資料探勘的綜合需求 , 融合了網路精準採集、自然語言理解、文字挖掘和語義搜尋的研究成果 , 並針對網際網路內容處理的全技術鏈條的共享開發平臺。

   NLPIR 大資料語義智慧分析平臺十三大功能:

  精準採集:對境內外網際網路海量資訊實時精準採集,有主題採集 ( 按照資訊需求的主題採集 ) 與站點採集兩種模式 ( 給定網址列表的站內定點採集功能 )

  文件轉化:對 doc excel pdf ppt 等多種主流文件格式,進行文字資訊轉化,效率達到大資料處理的要求。

  新詞發現:從文字中挖掘出新詞、新概念,使用者可以用於專業詞典的編撰,還可以進一步編輯標註,匯入分詞詞典中,提高分詞系統的準確度,並適應新的語言變化。

  批次分詞:對原始語料進行分詞,自動識別人名地名機構名等未登入詞,新詞標註以及詞性標註。並可在分析過程中,匯入使用者定義的詞典。

  語言統計:針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計。針對常用的術語,會自動給出相應的英文解釋。

  文字聚類:能夠從大規模資料中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文字和簡訊、微博等短文字的熱點分析。

  文字分類:根據規則或訓練的方法對大量文字進行分類,可用於新聞分類、簡歷分類、郵件分類、辦公文件分類、區域分類等諸多方面。

  摘要實體:對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞 ; 方便使用者快速瀏覽文字內容。

  智慧過濾:對文字內容的語義智慧過濾審查,內建國內最全詞庫,智慧識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。

  情感分析:針對事先指定的分析物件,系統自動分析海量文件的情感傾向:情感極性及情感值測量,並在原文中給出正負面的得分和句子樣例。

  文件去重:快速準確地判斷檔案集合或資料庫中是否存在相同或相似內容的記錄,同時找出所有的重複記錄。

  全文檢索:支援文字、數字、日期、字串等各種資料型別,多欄位的高效搜尋,支援 AND/OR/NOT 以及 NEAR 鄰近等查詢語法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。

  編碼轉換:自動識別內容的編碼,並把編碼統一轉換為其他編碼。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2653791/,如需轉載,請註明出處,否則將追究法律責任。

相關文章