Go 語言高效分詞, 支援英文、中文、日文等
Go 語言高效分詞, 支援英文、中文、日文等
詞典用雙陣列 trie(Double-Array Trie)實現, 分詞器演算法為基於詞頻的最短路徑加動態規劃。
支援普通和搜尋引擎兩種分詞模式,支援使用者詞典、詞性標註,可執行 JSON RPC 服務。
分詞速度單執行緒 9MB/s,goroutines 併發 42MB/s(8 核 Macbook Pro)。
安裝/更新
go get -u github.com/go-ego/gse
Build-tools
go get -u github.com/go-ego/re
re gse
To create a new gse application
$ re gse my-gse
re run
To run the application we just created, you can navigate to the application folder and execute:
$ cd my-gse && re run
使用
package main
import (
"fmt"
"github.com/go-ego/gse"
)
func main() {
// 載入詞典
var segmenter gse.Segmenter
segmenter.LoadDict()
// segmenter.LoadDict("your gopath"+"/src/github.com/go-ego/gse/data/dict/dictionary.txt")
// 分詞
text := []byte("中華人民共和國中央人民政府")
segments := segmenter.Segment(text)
// 處理分詞結果
// 支援普通模式和搜尋模式兩種分詞,見程式碼中 ToString 函式的註釋。
fmt.Println(gse.ToString(segments, false))
text1 := []byte("深圳地王大廈")
segments1 := seg.Segment([]byte(text1))
fmt.Println(gse.ToString(segments1, false))
}
專案地址: https://github.com/go-ego/gse
更多原創文章乾貨分享,請關注公眾號
- 加微信實戰群請加微信(註明:實戰群):gocnio
相關文章
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- C語言英文單詞C語言
- PostgreSQL中英文混合分詞特殊規則(中文單字、英文單詞)-中英分明SQL分詞
- GO語言敏感詞檢測Go
- 中文自然語言處理工具集:分詞,相似度匹配自然語言處理分詞
- Gse v0.30.0 釋出了, Go 高效能分詞, 增加 hmm 支援GseGo分詞HMM
- Go語言字串高效拼接(三)Go字串
- Go語言字串高效拼接(一)Go字串
- Go語言字串高效拼接(二)Go字串
- 自然語言處理工具中的中文分詞器介紹自然語言處理中文分詞
- 【R語言】【Rstudio】中文支援R語言
- Go語言將支援AndroidGoAndroid
- TensorFlow支援Go語言了Go
- win10系統英文語言修改為中文語言的方法Win10
- Python自然語言處理實戰(3):中文分詞技術Python自然語言處理中文分詞
- 自然語言處理:分詞方法自然語言處理分詞
- Go 語言:The Laws of Reflection 中文版Go
- NLP自然語言處理中英文分詞工具集錦與基本使用介紹自然語言處理分詞
- R語言︱文字挖掘之中文分詞包——Rwordseg包(原理、功能、詳解)R語言中文分詞
- 帶讀 |《Go in Action》(中文:Go語言實戰)(一)Go
- Go 語言的詞法分析和語法分析(1)Go詞法分析語法分析
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- centos英文版下如何安裝中文語言包CentOS
- 給 go 語言新增中文關鍵字Go
- 帶讀 |《Go in Action》(中文:Go語言實戰)語法和語言結構概覽 (二)Go
- 帶讀 |《Go in Action》(中文:Go語言實戰) 語法和語言結構概覽(三)Go
- 線上語言編輯器(js,css,html等多種語言支援)JSCSSHTML
- 15分鐘學會Go語言Go
- Gse v0.10.0 釋出了, Go 高效能分詞GseGo分詞
- 中文和英文NLP自然語言處理異同點分析自然語言處理
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註
- 中文分詞技術中文分詞
- go語言高效能快取元件ccache分析Go快取元件
- ants——Go語言的高效能協程池Go