中文分詞研究難點-詞語劃分和語言規範

ljrj123發表於2019-09-04

自然語言處理包括自然語言理解和自然語言生成兩方面,要實現均需要自然語言的解析作為前提。詞語是漢語語言的組成單位,中文分詞也成為中文語義分析的基礎。鑑於中文的多樣性組詞和用詞方法,相比英文分詞,中文分詞實現難度相對較高。NLPIR實驗室總結了幾項中文分詞難點。


中文分詞概念


中文分詞就是搜尋引擎針對使用者提交查詢的關鍵詞串進行的查詢處理後進行分析的一種。當然,我們在進行資料探勘、目標推薦和自然語言處理工作中也會經常用到中文分詞。


詞是能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,因此,中文詞語分析是中文資訊處理的基礎與關鍵。


中文分詞的研究方法


現有的分詞演算法,大概可分為三類:1.基於字串匹配的分詞演算法2.基於理解的分詞演算法3.基於統計的分詞演算法


1. 基於字串匹配的分詞演算法


這種分詞方法,又叫機械分詞演算法,它會提前維護一個大的字典,然後將句子和字典中的詞進行匹配,若匹配成功,則可以進行分詞處理。


當然,它的複雜程度也在增加,因為當字典很大的時候,就又涉及到不同的匹配演算法,這裡就不展開講了。通常會基於 Trie 樹結構,來實現詞圖掃描。


2. 基於理解的分詞演算法


這種分詞方法是透過讓計算機,模擬人對句子的理解,完成識別片語。基本思想是在分詞的同事進行句法、語義的分析,利用句法和語義資訊來處理歧義現象。通常包含三部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義資訊,來對分詞歧義進行判斷,模擬人對句子的理解過程。


由於漢語語言知識的籠統、複雜性,不能將語言資訊組織成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。


3. 基於統計的分詞演算法


給出大量已經分詞的文字,利用統計機器學習模型學習詞語切分的規律(稱為訓練),從而實現對未知文字的切分。


隨著大規模語料庫的建立,統計機器學習方法的研究和發展,基於統計的中文分詞方法漸漸成為了主流方法。


中文分詞的研究難點


中文分詞難點主要體現在三個方面:分詞的規範、歧義詞的切分和未登入詞識別。


1. 分詞的規範。


中文因其自身語言特性的侷限,字(詞)的界限往往很模糊,關於字(詞)的抽象定義和詞邊界的劃定尚沒有一個具體的標準。這種不同的主觀分詞差異,給漢語分詞造成了很大的困難。儘管在 1992 年國家頒佈了《資訊處理用現代詞漢語分詞規範》,但是這種規範很容易受主觀因素影響,在處理現實問題時也不免相形見絀。


2. 歧義詞切分。


中文中的歧義詞是很普遍,即同一個詞有多種切分方式,該如何處理這種問題呢?普遍認為中文歧義詞有三種型別。


交集型切分歧義,漢語詞如ABC 型別,滿足AB 和BC 分別成詞。如“大學生”一種切分方式“大學/生”,另一種切分方式“大/學生”。很難去判定哪種切分正確,即使是人工切分也只能依據上下文,類似的有“結合成”“美國會”等。


組合型切分歧義,漢語詞如AB,滿足A、B、AB 分別成詞。如“郭靖有才能”中的“才能”,一種切分為“郭靖/有/才能”,另一種切分“中國/什麼/時候/才/能/達到/發達/國家/水平”顯示是不同的切分方式。


混合型切分歧義,漢語詞包含如上兩種共存情況。如“郭靖說這把劍太重了”,其中“太重了”是交集型欄位,“太重”是組合型欄位。


3.未登入詞(新詞)識別。


未登入詞又稱新詞。這類詞通常指兩個方面,一是詞庫中沒有收錄的詞,二是訓練語料沒有出現過的詞。未登入詞主要體現在以下幾種。


新出現的網路用詞。如“藍芽”“房姐”“奧特”“累覺不愛”等。


研究領域名稱:特定領域和新出現領域的專有名詞。如“埃博拉”等。


其他專有名詞:諸如城市名、公司企業、職稱名、電影、書籍、專業術語、縮寫詞等。如“成都”“三少爺的劍”“NLP”“川大”等。


中文分詞在搭建自然語言形式模型,對語義的理解,和語法知識的應用均存在難題。而隨著語言規範系統的不斷完善,中文分詞領域也會實現進一步進步。


 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2656044/,如需轉載,請註明出處,否則將追究法律責任。

相關文章