大資料資訊挖掘中文分詞是關鍵

ljrj123發表於2017-12-04

  在中文自然語言處理中,詞是最小的能夠獨立活動的有意義的語言成分。漢語是以字為基本書寫單位,詞語之間沒有明顯的區分標記,因此進行中文自然語言處理通常是先將漢語文字中的字串切分成合理的詞語序列,然後再在此基礎上進行其它分析處理。中文分詞是中文資訊處理的一個基礎環節,已被廣泛應用於中文文字處理、資訊提取、文字挖掘等應用中。分詞涉及許多方面的問題,主要包括:
  (1). 核心詞表問題:許多分詞演算法都需要有一個核心的(通用、與領域無關的)詞表。凡在該詞表中的詞,分詞時就應該切分出來。但對於哪些詞應當 收進核心詞表,目前尚無一個標準;
  (2). 詞的變形問題:漢語中的動詞和形容詞有些可以產生變形結構,如“打牌”、“開心”、“看見”、“相信”可能變形成“打打牌”、“開開心”、“看沒看見”、“相不相信”等,對這些變形結構的切分往往缺少可操作而又合理的規範;
  (3). 詞綴的問題:如語素“者”在現代漢語中單用是沒有意義的,因此“作者”、“成功者”、“開發者”內部不能切開。
  (4). 漢語自動分詞規範須支援各種不同目標的應用,但不同目標的應用對詞的要求是不同甚至是矛盾的。比如以詞為單位的鍵盤輸入系統為了提高輸入速度,一些互現頻率高的相互鄰接的幾個字也常作為輸入單位,如“這是”、“每一”、“並不”、“不多”、“不在”、“就是”、“也就”等;
  NLPIR/ICTCLAS分詞系統針對網際網路內容處理的需要,融合了自然語言理解、網路搜尋和文字挖掘的技術,可以支援中英文分詞與詞性標註,視覺化系統可根據詞性對不同的分詞結果進行區分顯示,一般虛詞都是淺色,而名詞、動詞、形容詞等實詞為顯著的顏色。系統還支援線上使用者詞典的輸入,使用者可以在右下方新增使用者詞及詞性。
  漢語詞法分析能對漢語語言進行拆分處理,是中文資訊處理必備的核心部件,採用條件隨機場(Conditional Random Field,簡稱CRF)模型,分詞準確率接近99%,具備準確率高、速度快、可適應性強等優勢;特色功能包括:切分粒度可調整,融合20餘部行業專有詞典,支援使用者自定義詞典等。
  詞性標註能對漢語語言進行詞性的自動標註,它能夠真正理解中文,自動根據語言環境將詞語諸如“建設”標註為“名詞”或“動詞”,採用條件隨機場(Conditional Random Field,簡稱CRF)模型,一級詞性標註準確率接近99%,具備準確率高、速度快、可適應性強等優勢。
  在資訊處理中,分詞是一項基本技術,因為中文的詞彙是緊挨著的,不像英文有一個天然的空格符可以分隔開不同的單詞。雖然把一串漢字劃分成一個個詞對於漢語使用者來說是很簡單的事情,但對機器來說卻很有挑戰性,所以一直以來分詞都是中文資訊處理領域的重要的研究問題。


相關文章