深入學習自然語言:NLP、NLG不可分開戰鬥!

劉美利發表於2018-08-10

有人說來自語言的資料是“非結構化資料”,事實證明這是一個錯誤的說法。如果沒有特定的語言結構,人們可能無法用語音或者書面語言進行正確交流。語法是語言的結構,它有助於定義語言的含義。大家學習任何一門語言,都要學習該門語言的語法結構。要想推動計算機的快速發展,就要擺脫傳統處理計算機的思維,推陳出新,理解自然語言的結構。

從平面檔案資料庫結構到關係型資料庫(RDBMS),這之中經歷了數十年的結構化資料發展歷程,對於習慣於這種結構的人來說,語言似乎是高度非結構化的,這直接導致使用錯誤的術語。近幾年,文字和語音技術的快速增長讓傳統資料庫領域的人對於該問題更加混淆不清。所以,現在是時候停止引用非結構化資料了。

相比之下,人工智慧(AI)一直在模仿人類溝通和行動。從人工智慧出現以來,研發人員一直對人類的交流方式很感興趣,也就衍生了自然語言處理(NLP)和自然語言生成(NLG)這兩個重疊學科。

語法和語義

由於早期計算技術的侷限性, AI在語言上的大部分原創工作都是透過專家系統完成的,透過定義好的系統執行規則來理解語言。但是這些規則幾乎只關注語法,雖然也幫助解決了很多問題,但語言是流動的,語義也並不是完全取決於語法,有時語法比預期的更難檢測。不斷的增加規則減慢了系統的速度,並且也沒有達到對話所需的高度精準。

就十年前的技術水平而言,書面語言被認為是語言的重點,大家都將精力投放在建立語法的正確輸出上,而忽視了NLP的複雜性。這就是為什麼專家系統(Expert System)在圖靈測試中屢次失敗,因為測試者一般都是透過扭曲的語言邏輯去獲取機器的基本反映,這就很容易判斷對方是人還是機器。

人工神經網路(ANN)推進自然語言發展

雲端計算的發展加速了自然語言的進步,計算機和處理器叢集可以幫助完成更復雜的語義分析,ANN也因此成為機器學習的前沿技術。ANN不必明確定義所有的語法規則將它們連線到語義,程式設計師可以透過建立不同的網路層來分析語言的基本元件,讓系統透過例項學習的方式理解更為複雜的語句,實現更精準的NLP和NLG。

在自然語言處理方面,ANN使得系統能夠更快的分析大量文字和資料,推動了網際網路搜尋、客戶服務情緒分析以及其他領域的進步。ThoughtSpot的首席資料專家Doug Bordonaro表示:“商家在思考問題時輸入的查詢及查詢結果甚至可以直接決定一個業務的成敗。自然語言處理技術可以幫助一個非技術出身的商業人士成為一個合格的成功商人。我們的財富100強的每一個客戶每週都要有10000多次的搜尋記錄,也正是這些搜尋的幫助,客戶每天都可以深入瞭解業內銷售趨勢、產品盈利情況以及市場行情。

這些進步在很大程度上推動了音訊、語音識別技術的發展。一般情況下,口頭表達往往比書面語言更為多變,音量和重音的變化很大程度上會影響語義的理解。近十年,美國矽谷在聲音(特別是美國男音)研究上一直很有優勢,但是資料庫近段時間才被擴充套件到對各型別語言的理解。

人工神經網路同樣也推動了自然語言的生成,在它的幫助下,生成的口語沒有之前那麼生硬,並且靈活的語法驅動規則提供了更加自然的客戶體驗。

NLG另一個關鍵領域是語音和文字,可以幫助實現其他型別的輸出形式,比如許多儀表板中的視覺化效果。SAP(企業管理系列軟體)副總裁David Judge表示:“目前的視覺化雖然已經很強大,但還是遠遠不夠。影像和文字的結合更加方便公司員工之間的溝通。在NLG解決方案中,動態文字的構建成為了一個很大的優勢,它為那些無法使用視覺效果的人提供了可訪性。”

聯合NLP、NLG,深入學習自然語言

要想更深入的理解NLP和NLG,就不能將它們分開。自然的語言理解和交流可以加速分析和決策的過程。人們學習的方式有很多種,自然語言在商業分析中的重要性與日俱增。因此我們判斷,自然語言工具將在未來兩年內迅速滲入市場。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31542119/viewspace-2199823/,如需轉載,請註明出處,否則將追究法律責任。

相關文章