語義分析發現:靈玖大資料檢索與分詞
在中文自然語言中,詞是最小的能夠獨立活動的有意義的語言成分。但是漢語詞語之間沒有明顯的區分標記,因此在進行中文自然語言處理前,通常是先將漢語文字中的字串切分成合理的詞語序列,再在此基礎上進行其它分析處理。將中文字串切分成合理詞語序列的過程就是中文分詞,它是中文資訊處理的一個基礎環節,已經被廣泛應用於中文文字處理、資訊提取、文字挖掘等應用中。
分詞演算法要想獲得更好的切分精度,通常需要利用更多的語言資源,這樣必耗費更多的時間去處理這些語言資源,因此對於一般切分精度比較高的演算法,其切分的速度是比較慢的;而一些切分速度快的演算法,因為拋棄了一些繁瑣的語言處理,故切分精度一般不高。從當前的一些主要分詞演算法來看,切分精度雖然有差別,但差異都不是特別大,而切分時間相對來說差別則比較大。根據實驗,在相同的實驗環境下,較快的切分演算法(如最大匹配演算法)可以達到20MB/秒以上,而慢的切分演算法(如基於層次隱馬模型的分詞演算法)只有100KB/秒左右。對於當前的一些實際應用比如Web搜尋來說,時間效率是重要的。那些較高切分精度的分詞演算法,因為速度太慢不僅無法滿足實際應用的需求,有時甚至也無法滿足其它自然語言處理研究的需要。在目前的許多實際應用產品中,為了保證速度都不得不犧牲部分準確度,可能也採取了一些比較簡單的切分演算法。
近年來,伴隨著SIGHAN國際中文分詞評測活動Bakeoff的開展,中文分詞技術有了長足的進步,在分詞方法和理念上都有了很大的創新。
JZSearch大資料精準搜尋引擎是靈玖軟體對大資料垂直搜尋需求的全文檢索引擎,已經實際應用於中國郵政、中國標準搜尋、微博搜尋、新疆維吾爾輿情搜尋等多個應用系統。整個系統內容基於C++開發,支援文字、數字、日期、字串等各種資料型別,多欄位的高效搜尋,支援AND/OR/NOT以及NEAR鄰近等查詢語法,支援維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。可以無縫地與現有文字處理系統與資料庫系統融合。
其主要特性包括:
1.可以按照任意指定欄位的排序,支援指定欄位的搜尋,也可以搜尋多個欄位,以及複雜表示式的綜合搜尋;
2.支援精確匹配以及模糊匹配,預設為精確匹配,忽略字母大小寫進行模糊匹配;
3.內嵌正負面情感等極性分析,也可以支援類別搜尋;
4.語義聯想搜尋:如搜尋“馬鈴薯”可以同時返回“土豆”的內容,搜尋“北京市”可以返回“北京”或者“首都”的內容;語義聯絡詞表使用者可以根據業務需要進行定製;
5.支援增量索引:系統可以在搜尋服務不停的前提下,繼續索引新的資料,索引完成後,可以搜尋新的資料;
6.自動備份與恢復機制,在建立索引和自動最佳化之前,系統會將已有的索引檔案自動備份;在當前索引檔案被破壞無法搜尋的前提下,系統將自動恢復上次搜尋正常的備份檔案;
7.自動快取機制:系統自動儲存最近常用的搜尋條件與結果,再次搜尋時將直接推送搜尋結果內容,可以將搜尋響應速度提升30%以上;快取會隨著新的索引資料自動更新,不存在快取延遲問題;
8.自動最佳化機制:在系統索引碎片較多時,系統會自動最佳化歸併;
9.實現的是多執行緒搜尋服務; 相容當前所有廠商的資料庫系統,其中SQL Server, Oracle, MySQL,DB2等。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2127526/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- 語義挖掘:靈玖大資料漢語智慧分詞大資料分詞
- ElasticSearch 實現分詞全文檢索 - 概述Elasticsearch分詞
- ES 筆記二十二:多語言及中文分詞與檢索筆記中文分詞
- ElasticSearch 實現分詞全文檢索 - delete-by-queryElasticsearch分詞delete
- Mysql 如何實現全文檢索,關鍵詞跑分MySql
- 使用PHP實現詞法分析與自定義語言PHP詞法分析
- 資料庫的檢索語句資料庫
- C#實現前向最大匹、字典樹(分詞、檢索)C#分詞
- 靈玖大資料在中文語義分析完成新突破大資料
- 資料檢索
- 關鍵詞感知檢索
- 實驗:用檢視加同義詞實現資料安全
- 資料庫鏈與同義詞資料庫
- 昆蟲分類與檢索系統的設計與開發
- 【搜尋引擎】Solr Suggester 實現全文檢索功能-分詞和和自動提示Solr分詞
- 引言:分詞與語法解析分詞
- 用IndexedDB+Cookie實現HTML5本地資料庫關鍵詞檢索IndexCookieHTML資料庫
- Oracle資料庫開發——同義詞Oracle資料庫
- 一種基於概率檢索模型的大資料專利檢索方法與流程模型大資料
- PostgreSQL全文檢索-詞頻統計SQL
- 擊敗二分檢索演算法——插值檢索、快速檢索演算法
- 語義挖掘:靈玖大資料文字過濾大資料
- NLPIR語義分析系統不斷提高中文分詞準確率中文分詞
- 【雲圖】自有資料的多邊形檢索(雲檢索)
- 資料庫的檢索(20)資料庫
- 1.分詞與語法解析分詞
- paip.語義分析--分詞--常見的單音節字詞 2_deDuli 單字詞 774個AI分詞
- elasticsearch之ik分詞器和自定義詞庫實現Elasticsearch分詞
- Oracle——04同義詞與資料庫連結Oracle資料庫
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- 資料檢索擴充套件包套件
- 亞馬遜雲創新「神經稀疏檢索」:僅需要文字匹配就能實現語義搜尋亞馬遜
- 一個線上全文索引BUG的排查:關於類阿拉件數字的分詞與檢索索引分詞
- SQLServer訪問Oracle(通過同義詞-檢視-資料字典)出現的問題SQLServerOracle
- Oracle OCP(15):分層檢索Oracle
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- 基於ElasticSearch實現商品的全文檢索檢索Elasticsearch