Gse v0.10.0 釋出了, Go 高效能分詞

veni發表於2018-04-27

Go 語言高效分詞, 支援英文、中文、日文等

詞典用雙陣列 trie(Double-Array Trie)實現, 分詞器演算法為基於詞頻的最短路徑加動態規劃。

支援普通和搜尋引擎兩種分詞模式,支援使用者詞典、詞性標註,可執行 JSON RPC 服務。

專案地址: https://github.com/go-ego/gse

package main

import (
    "fmt"

    "github.com/go-ego/gse"
)

func main() {
    var seg gse.Segmenter
    seg.LoadDict("zh,testdata/test_dict.txt,testdata/test_dict1.txt")

    text1 := []byte("你好世界, Hello world")

    segments := seg.Segment(text1)
    fmt.Println(gse.ToString(segments, false))
}

Danube River

Add

  • [NEW] 增加載入詞典錯誤行檢測
  • [NEW] 增加不同語言詞典縮寫
  • [NEW] 增加模式分詞方法
  • [NEW] 增加自定義字典和示例
  • [NEW] 更多測試
  • [NEW] 更新測試工具

Update

  • [NEW] 更新 tool 和 benchmark 程式碼
  • [NEW] 更新 cedar 程式碼
  • [NEW] 簡化程式碼 name
  • [NEW] 更新 README.md
  • [NEW] 細分程式碼方法
  • [NEW] 更新版本並使用 dep 管理包
  • [NEW] 優化字典載入
  • [NEW] 更新 log print 和檔名

Fix

  • [FIX] Format some code and fix godoc
更多原創文章乾貨分享,請關注公眾號
  • Gse v0.10.0 釋出了, Go 高效能分詞
  • 加微信實戰群請加微信(註明:實戰群):gocnio

相關文章