中文分詞研究難點-詞語劃分和語言規範
自然語言處理包括自然語言理解和自然語言生成兩方面,要實現均需要自然語言的解析作為前提。詞語是漢語語言的組成單位,中文分詞也成為中文語義分析的基礎。鑑於中文的多樣性組詞和用詞方法,相比英文分詞,中文分詞實現難度相對較高。NLPIR實驗室總結了幾項中文分詞難點。
中文分詞概念
中文分詞就是搜尋引擎針對使用者提交查詢的關鍵詞串進行的查詢處理後進行分析的一種。當然,我們在進行資料探勘、目標推薦和自然語言處理工作中也會經常用到中文分詞。
詞是能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,因此,中文詞語分析是中文資訊處理的基礎與關鍵。
中文分詞的研究方法
現有的分詞演算法,大概可分為三類:1.基於字串匹配的分詞演算法2.基於理解的分詞演算法3.基於統計的分詞演算法
1. 基於字串匹配的分詞演算法
這種分詞方法,又叫機械分詞演算法,它會提前維護一個大的字典,然後將句子和字典中的詞進行匹配,若匹配成功,則可以進行分詞處理。
當然,它的複雜程度也在增加,因為當字典很大的時候,就又涉及到不同的匹配演算法,這裡就不展開講了。通常會基於 Trie 樹結構,來實現詞圖掃描。
2. 基於理解的分詞演算法
這種分詞方法是透過讓計算機,模擬人對句子的理解,完成識別片語。基本思想是在分詞的同事進行句法、語義的分析,利用句法和語義資訊來處理歧義現象。通常包含三部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊,來對分詞歧義進行判斷,模擬人對句子的理解過程。
由於漢語語言知識的籠統、複雜性,不能將語言資訊組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。
3. 基於統計的分詞演算法
給出大量已經分詞的文字,利用統計機器學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文字的切分。
隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為了主流方法。
中文分詞的研究難點
中文分詞難點主要體現在三個方面:分詞的規範、歧義詞的切分和未登入詞識別。
1. 分詞的規範。
中文因其自身語言特性的侷限,字(詞)的界限往往很模糊,關於字(詞)的抽象定義和詞邊界的劃定尚沒有一個具體的標準。這種不同的主觀分詞差異,給漢語分詞造成了很大的困難。儘管在 1992 年國家頒佈了《資訊處理用現代詞漢語分詞規範》,但是這種規範很容易受主觀因素影響,在處理現實問題時也不免相形見絀。
2. 歧義詞切分。
中文中的歧義詞是很普遍,即同一個詞有多種切分方式,該如何處理這種問題呢?普遍認為中文歧義詞有三種型別。
交集型切分歧義,漢語詞如ABC 型別,滿足AB 和BC 分別成詞。如“大學生”一種切分方式“大學/生”,另一種切分方式“大/學生”。很難去判定哪種切分正確,即使是人工切分也只能依據上下文,類似的有“結合成”“美國會”等。
組合型切分歧義,漢語詞如AB,滿足A、B、AB 分別成詞。如“郭靖有才能”中的“才能”,一種切分為“郭靖/有/才能”,另一種切分“中國/什麼/時候/才/能/達到/發達/國家/水平”顯示是不同的切分方式。
混合型切分歧義,漢語詞包含如上兩種共存情況。如“郭靖說這把劍太重了”,其中“太重了”是交集型欄位,“太重”是組合型欄位。
3.未登入詞(新詞)識別。
未登入詞又稱新詞。這類詞通常指兩個方面,一是詞庫中沒有收錄的詞,二是訓練語料沒有出現過的詞。未登入詞主要體現在以下幾種。
新出現的網路用詞。如“藍芽”“房姐”“奧特”“累覺不愛”等。
研究領域名稱:特定領域和新出現領域的專有名詞。如“埃博拉”等。
其他專有名詞:諸如城市名、公司企業、職稱名、電影、書籍、專業術語、縮寫詞等。如“成都”“三少爺的劍”“NLP”“川大”等。
中文分詞在搭建自然語言形式模型,對語義的理解,和語法知識的應用均存在難題。而隨著語言規範系統的不斷完善,中文分詞領域也會實現進一步進步。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2656044/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 自然語言處理:分詞方法自然語言處理分詞
- 中文自然語言處理工具集:分詞,相似度匹配自然語言處理分詞
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- Python自然語言處理實戰(3):中文分詞技術Python自然語言處理中文分詞
- 自然語言處理工具中的中文分詞器介紹自然語言處理中文分詞
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- Python 自然語言處理(基於jieba分詞和NLTK)Python自然語言處理Jieba分詞
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 單詞劃分
- 引言:分詞與語法解析分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- NLP之中文分詞中文分詞
- 中文分詞技術中文分詞
- 1.分詞與語法解析分詞
- 古詩詞 中文 分詞 自動化分詞
- 自然語言處理中的分詞問題總結自然語言處理分詞
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- R語言分詞及視覺化協助快速瞭解導師研究方向R語言分詞視覺化
- python 中文分詞包 jiebaPython中文分詞Jieba
- elasticsearch教程--中文分詞器作用和使用Elasticsearch中文分詞
- 自然語言處理工具HanLP-N最短路徑分詞自然語言處理HanLP分詞
- 中文分詞工具之基於字標註法的分詞中文分詞
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- ES 筆記二十二:多語言及中文分詞與檢索筆記中文分詞
- C語言英文單詞C語言
- Go 語言的詞法分析和語法分析(1)Go詞法分析語法分析
- python分詞和生成詞雲圖Python分詞
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 詞!自然語言處理之詞全解和Python實戰!自然語言處理Python
- HanLP中文分詞Lucene外掛HanLP中文分詞
- 如何用Python做中文分詞?Python中文分詞
- SCWS PHP 中文簡易分詞PHP分詞
- 中文分詞器,整理自Ai中文分詞AI
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞