你是怎麼學習 NLP 的?

GitChat 精品課發表於2019-04-04

作為人工智慧的一個重要組成部分,自然語言處理(NLP)的研究物件是計算機和人類語言的互動,其任務是理解人類語言並將其轉換為機器語言。


在目前的商業場中,NLP 技術用於分析源自郵件、音訊、檔案、網頁、論壇、社交媒體中的大量半結構化和非結構化資料,市場前景巨大。


01

NLP 領域發展現狀如何


近年來,自然語言處理處於快速發展階段。網際網路與移動網際網路和世界經濟社會一體化的潮流對自然語言處理技術的迫切需求,為自然語言處理研究發展提供了強大的市場動力。


當前國內外出現了一批基於 NLP 技術的應用系統,例如 IBM 的 Watson 在電視問答節目中戰勝人類冠軍;蘋果公司的 Siri 個人助理被大眾廣為測試;谷歌、微軟、百度等公司紛紛釋出個人智慧助理;科大訊飛牽頭研發高考機器人……但相比於效能趨於飽和的計算機視覺和語音識別技術,自然語言處理因技術難度太大、應用場景太複雜,研究成果還未達到足夠的高度。


02

深度學習背景下的自然語言處理


近年來,隨著研究工作的深入,研究者們開始從傳統機器學習轉向深度學習。面向自然語言處理的深度學習研究工作,目前尚處於起步階段,還沒有重大突破,所以,現在在這方面發展還有著非常廣闊的空間。


在當前已有的深度學習模型研究中,難點是在模型構建過程中引數的優化調整方面。主要有深度網路層數、正則化問題及網路學習速率等,可能的解決方案比如有采用多核機提升網路訓練速度,針對不同應用場合,選擇合適的優化演算法等。


03

如何快速入門中文自然語言處理

作為初學者,我們目前面臨這樣的尷尬:網上大部分自然語言處理內容都是英文為基礎,大多數人先是學好了英語的處理,回頭來再處理中文,卻發現有很大的不同,這樣不僅讓中文自然語言處理學習者走了彎路,也浪費了大量時間和精力。

中文的處理比英文複雜的多,網上中文相關資料少之又少,國內純中文自然語言處理書籍只有理論方面的,卻在實戰方面比較空缺,這讓中文自然語言處理的研究開發工作感到舉步維艱,很難下筆。

中文自然語言處理入門》是我在 GitChat 平臺獨家首發的入門教程,針對想邊學邊實戰的初學者設計——

現在掃碼,享特價訂閱

640?wx_fmt=jpeg

04

自然語言處理未來的研究方向


縱觀自然語言處理技術研究發展的態勢和現狀,以下研究方向或問題將可能成為自然語言處理未來研究必須攻克的堡壘:


  1. 詞法和句法分析方面:包括多粒度分詞、新詞發現、詞性標註等;

  2. 語義分析方面:包括詞義消歧、非規範文字的語義分析;

  3. 語言認知模型方面:比如使用深度神經網路處理自然語言,建立更有效、可解釋的語言計算模型;

  4. 知識圖譜方面:如何構建能夠融合符號邏輯和表示學習的大規模高精度的知識圖譜;

  5. 文字分類與聚類方面:通過有監督、半監督和無監督學習,能夠準確進行分類和聚類;

  6. 資訊抽取方面:對於多源異構資訊,如何準確進行關係、事件的抽取等。;

  7. 情感分析方面:包括基於上下文感知的情感分析、跨領域跨語言情感分析、基於深度學習的端到端情感分析、情感解釋、反諷分析、立場分析等;

  8. 自動文摘方面:如何表達要點資訊?如何評估資訊單元的重要性;

  9. 資訊檢索方面:包括意圖搜尋、語義搜尋等,都將有可能出現在各種場景的垂直領域,將以知識化推理為檢索執行方式,以自然語言多媒體互動為手段的智慧化搜尋與推薦技術;

  10. 自動問答方面:包括深度推理問答、多輪問答等各種形式的自動問答系統;

  11. 機器翻譯方面:包括面向小資料的機器翻譯、非規範文字的機器翻譯和篇章級機器翻譯等。


在《中文自然語言處理入門》達人課中,相信各位同學通過一些小資料量的“簡易版”例項,就能體會到中文自然語言處理的精妙,並完成了中文自然語言處理從 0 到 1 的過程。


點選閱讀原文 ,特價訂閱,把技術應用到工業生產中,做到知其然並知其所以然。

相關文章