大資料語義分析:靈玖中文分詞的分詞處理

ljrj123發表於2016-11-09

 在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫單位,詞語之間沒有明顯的區分標記,因此進行中文自然語言處理通常是先將漢語文字中的字串切分成合理的詞語序列,然後再在此基礎上進行其它分析處理。中文分詞是中文資訊處理的一個基礎環節,已被廣泛應用於中文文字處理、資訊提取、文字挖掘等應用中。分詞涉及許多方面的問題,主要包括:

  (1). 核心詞表問題:許多分詞演算法都需要有一個核心的(通用、與領域無關的)詞表。凡在該詞表中的詞,分詞時就應該切分出來。但對於哪些詞應當收進核心詞表,目前尚無一個標準;

  (2). 詞的變形問題:漢語中的動詞和形容詞有些可以產生變形結構,如“打牌”、“開心”、“看見”、“相信”可能變形成“打打牌”、“開開心”等,它們可以被切出“打打/牌”,但“開開/心”就不合理。又如大量的離合詞如“打架”、“睡覺”等可以合理地變形為“打了一場架”、“睡了一大覺”。對這些變形結構的切分往往缺少可操作而又合理的規範;

  (3). 詞綴的問題:如語素“者”在現代漢語中單用是沒有意義的,因此“作者”、“成功者”、“開發者”內部不能切開。依據這個標準,如“作出了巨大個人財產和精神犧牲者”、“克服許多困難而最終獲得成功者”也不能切開,但這樣複雜的結構與詞的定義相矛盾。又如職務名稱“教育局長”,語義上理解為“教育局之長”,但切成“教育/局長”、“教育局/長”、“教育/局/長”或不予切分,都會有人提出異議。

  (4). 漢語自動分詞規範須支援各種不同目標的應用,但不同目標的應用對詞的要求是不同甚至是矛盾的。比如以詞為單位的鍵盤輸入系統為了提高輸入速度,一些互現頻率高的相互鄰接的幾個字也常作為輸入單位,如“這是”、“每一”、“並不”、“不多”等;檢索系統中,檢索系統的詞庫注重術語和專名,且多數檢索系統傾向於分詞單位小型化,比如把“中國科學院”切成“中國/科學院”,使得無論用“中國科學院”還是用“科學院”檢索,系統都能查到,提高查全率;在校對系統中往往將含有易錯字的詞和片語作為詞單位,如許多人“作”、“做”分不清,計算機自動判別時,若把它們當作單字詞也不好區分,但在同前後文構成的詞或片語中往往可以有確定的選擇,故應把有關的詞和片語都收進詞庫,如“敢做”、“敢作敢為”、“叫做”、“做出”、“看作”、“做為”等,而校對系統要求分詞單位較大,如把“勇鬥”、“力擒”、“智取”等分別作為一個分詞單位並劃歸及物動詞參與上下文檢查,“張老師”、“五分之三”、“北京中醫學院”也應分別作為分詞單位,並分別歸類作為人、數字、機構名,再參與上下文檢查。

  而NLPIR文字搜尋與挖掘開發平臺針對網際網路內容處理的需要,融合了自然語言理解、網路搜尋和文字挖掘的技術,提供了用於技術二次開發的基礎工具集。是一套專門針對原始文字集進行處理和加工的軟體,提供了中介軟體處理效果的視覺化展示,也可以作為小規模資料的處理加工工具。使用者可以使用該軟體對自己的資料進行處理。

  NLPIR文字搜尋與挖掘開發平臺的幾大功能:

  1. 全文精準檢索:支援文字、數字、日期、字串等各種資料型別,多欄位的高效搜尋,支援AND/OR/NOT以及NEAR鄰近等查詢語法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文字處理系統與資料庫系統融合。

  2. 新詞發現:從檔案集合中挖掘出內涵的新詞語列表,可以用於使用者專業詞典的編撰;還可以進一步編輯標註,匯入分詞詞典中,從而提高分詞系統的準確度,並適應新的語言變化。

  3. 分詞標註:對原始語料進行分詞、自動識別人名地名機構名等未登入詞、新詞標註以及詞性標註。並可在分析過程中,匯入使用者定義的詞典。

  4. 統計分析與術語翻譯: 針對切分標註結果,系統可以自動地進行一元詞頻統計、二元詞語轉移機率統計(統計兩個詞左右連線的頻次即機率)。針對常用的術語,會自動給出相應的英文解釋。

  5. 文字聚類及熱點分析:能夠從大規模資料中自動分析出熱點事件,並提供事件話題的關鍵特徵描述。同時適用於長文字和簡訊、微博等短文字的熱點分析。

  6. 分類過濾: 針對事先指定的規則和示例樣本,系統自動從海量文件中篩選出符合需求的樣本。

  7. 正負面分析:針對事先指定的分析物件和示例樣本,系統自動從海量文件中篩選出正負面的得分和句子樣例。

  8. 自動摘要: 能夠對單篇或多篇文章,自動提煉出內容的精華,方便使用者快速瀏覽文字內容。

  9. 關鍵詞提取:能夠對單篇文章或文章集合,提取出若干個代表文章中心思想的詞彙或短語,可用於精化閱讀、語義查詢和快速匹配等。

  10. 文件去重: 能夠快速準確地判斷檔案集合或資料庫中是否存在相同或相似內容的記錄,同時找出所有的重複記錄。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2128147/,如需轉載,請註明出處,否則將追究法律責任。

相關文章