語義分析發現:靈玖大資料檢索與分詞

ljrj123發表於2016-11-02

  在中文自然語言中,詞是最小的能夠獨立活動的有意義的語言成分。但是漢語詞語之間沒有明顯的區分標記,因此在進行中文自然語言處理前,通常是先將漢語文字中的字串切分成合理的詞語序列,再在此基礎上進行其它分析處理。將中文字串切分成合理詞語序列的過程就是中文分詞,它是中文資訊處理的一個基礎環節,已經被廣泛應用於中文文字處理、資訊提取、文字挖掘等應用中。

  分詞演算法要想獲得更好的切分精度,通常需要利用更多的語言資源,這樣必耗費更多的時間去處理這些語言資源,因此對於一般切分精度比較高的演算法,其切分的速度是比較慢的;而一些切分速度快的演算法,因為拋棄了一些繁瑣的語言處理,故切分精度一般不高。從當前的一些主要分詞演算法來看,切分精度雖然有差別,但差異都不是特別大,而切分時間相對來說差別則比較大。根據實驗,在相同的實驗環境下,較快的切分演算法(如最大匹配演算法)可以達到20MB/秒以上,而慢的切分演算法(如基於層次隱馬模型的分詞演算法)只有100KB/秒左右。對於當前的一些實際應用比如Web搜尋來說,時間效率是重要的。那些較高切分精度的分詞演算法,因為速度太慢不僅無法滿足實際應用的需求,有時甚至也無法滿足其它自然語言處理研究的需要。在目前的許多實際應用產品中,為了保證速度都不得不犧牲部分準確度,可能也採取了一些比較簡單的切分演算法。

  近年來,伴隨著SIGHAN國際中文分詞評測活動Bakeoff的開展,中文分詞技術有了長足的進步,在分詞方法和理念上都有了很大的創新。

  JZSearch大資料精準搜尋引擎是靈玖軟體對大資料垂直搜尋需求的全文檢索引擎,已經實際應用於中國郵政、中國標準搜尋、微博搜尋、新疆維吾爾輿情搜尋等多個應用系統。整個系統內容基於C++開發,支援文字、數字、日期、字串等各種資料型別,多欄位的高效搜尋,支援AND/OR/NOT以及NEAR鄰近等查詢語法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文字處理系統與資料庫系統融合。

  其主要特性包括:

  1.可以按照任意指定欄位的排序,支援指定欄位的搜尋,也可以搜尋多個欄位,以及複雜表示式的綜合搜尋;

  2.支援精確匹配以及模糊匹配,預設為精確匹配,忽略字母大小寫進行模糊匹配;

  3.內嵌正負面情感等極性分析,也可以支援類別搜尋;

  4.語義聯想搜尋:如搜尋“馬鈴薯”可以同時返回“土豆”的內容,搜尋“北京市”可以返回“北京”或者“首都”的內容;語義聯絡詞表使用者可以根據業務需要進行定製;

  5.支援增量索引:系統可以在搜尋服務不停的前提下,繼續索引新的資料,索引完成後,可以搜尋新的資料;

  6.自動備份與恢復機制,在建立索引和自動最佳化之前,系統會將已有的索引檔案自動備份;在當前索引檔案被破壞無法搜尋的前提下,系統將自動恢復上次搜尋正常的備份檔案;

  7.自動快取機制:系統自動儲存最近常用的搜尋條件與結果,再次搜尋時將直接推送搜尋結果內容,可以將搜尋響應速度提升30%以上;快取會隨著新的索引資料自動更新,不存在快取延遲問題;

  8.自動最佳化機制:在系統索引碎片較多時,系統會自動最佳化歸併;

  9.實現的是多執行緒搜尋服務; 相容當前所有廠商的資料庫系統,其中SQL Server, Oracle, MySQL,DB2等。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2127526/,如需轉載,請註明出處,否則將追究法律責任。

相關文章