每天呼叫達80億次的小米MiNLP平臺，近期又開源了中文分詞功能

机器之心發表於2020-11-23

原文網址 : https://www.jiqizhixin.com/articles/2020-11-23-3

近日，小米開源了其自然語言處理平臺 MiNLP 的中文分詞功能，具備分詞效果好、輕量級、詞典可定製、多粒度切分以及呼叫更便捷等特點。

在自然語言處理任務中，除了模型之外，底層的資料處理也是非常重要的。在語料預處理階段，分詞作為其中一個環節，其作用也是非常重要，但也受不同語言的限制，因而採取的方法有所不同，如中文和英文。

中文分詞是將一個漢字序列進行切分，得到一個個單獨的詞，如「我住在朝陽區」，分詞後的結果為「我 / 住在 / 朝陽區」。如果分詞效果不好的話，可能會出現其他情況，比較極端的結果是全部分錯「我住 / 在朝 / 陽區」。分詞效果好不好對資訊檢索、實驗結果影響很大，同時分詞的背後涉及各種各樣的演算法實現。

就中、英文而言，中文分詞與英文分詞有很大的不同，對英文而言，詞與詞之間都有空格隔開，一個單詞就是一個詞，而漢語是以字為基本的書寫單位，詞語之間沒有明顯的區分標記，需要人為切分。

現階段也出現了很多分詞演算法：如基於規則的、基於統計的等，也有一些比較好的分詞工具如 jieba、Hanlp、THULAC 等。此外還存在著一些線上分詞工具，其分詞效果也不錯。

國內一些科技大廠也早早投入到自然語言處理相關領域，如百度 NLP、阿里雲 NLP 等。就在近日，小米 AI 實驗室 NLP 團隊開發的小米自然語言處理平臺 MiNLP 現已開源了中文分詞功能。

每天呼叫達80億次的小米MiNLP平臺，近期又開源了中文分詞功能

專案地址：https://github.com/XiaoMi/MiNLP/tree/main/minlp-tokenizer

目前，MiNLP 平臺已經具備詞法、句法、語義等數十個功能模組，後續將陸續開源詞性標註、命名實體識別、句法分析等功能。其致力於打造功能強大、效果領先的 NLP 工具集。

MiNLP 從去年 2.0 版本的兩大功能模組（基礎演算法、語義理解）已經上升到 3.0 版本四大功能模組，在基礎演算法、語義理解的基礎上增加了內容理解和輿情分析模組。新的模組可以幫助系統更好地結合上下文理解互動內容，提高識別的準確性。

目前，小米自然語言處理平臺 MiNLP 每天輸出服務 80 億次。

MiNLP-Tokenizer 介紹

MiNLP-Tokenizer 是小米 AI 實驗室 NLP 團隊自研的中文分詞工具，基於深度學習序列標註模型實現，在公開測試集上取得了 SOTA 效果。其具備以下特點：

分詞效果好：基於深度學習模型在大規模語料上進行訓練，粗、細粒度在 SIGHAN 2005 PKU 測試集上的 F1 分別達到 95.7% 和 96.3%；
輕量級模型：精簡模型引數和結構，模型僅有 20MB；
詞典可定製：靈活、方便的干預機制，根據使用者詞典對模型結果進行干預；
多粒度切分：提供粗、細粒度兩種分詞規範，滿足各種場景需要；
呼叫更便捷：一鍵快速安裝，API 簡單易用。

安裝過程

安裝過程非常簡單，pip 全自動安裝：

pip install minlp-tokenizer

適用環境：Python 3.5~3.7，TensorFlow>=1.15,<2。

使用 API

from minlptokenizer.tokenizer import MiNLPTokenizertokenizer = MiNLPTokenizer(granularity='fine')  # fine：細粒度，coarse：粗粒度，預設為細粒度print(tokenizer.cut('今天天氣怎麼樣？'))

自定義使用者詞典

透過使用者詞典 List 新增：

from minlptokenizer.tokenizer import MiNLPTokenizertokenizer = MiNLPTokenizer(['word1', 'word2'], granularity='fine') #使用者自定義干預詞典傳入

透過檔案路徑方式新增：

from minlptokenizer.tokenizer import MiNLPTokenizertokenizer = MiNLPTokenizer('/path/to/your/lexicon/file', granularity='coarse')  # 建構函式的引數為使用者詞典路徑

在 lexicon 資料夾下預設已經有兩個詞典「chengyu.txt」、「default.txt」：

每天呼叫達80億次的小米MiNLP平臺，近期又開源了中文分詞功能

在檔案「chengyu.txt」中，有 8500 多個成語，基本上都是四字成語，示例如下所示：

每天呼叫達80億次的小米MiNLP平臺，近期又開源了中文分詞功能

在檔案「default.txt」中，有 150 個詞，基本上為公司名稱及網站名稱，示例如下所示：

每天呼叫達80億次的小米MiNLP平臺，近期又開源了中文分詞功能

其實早在 11 月 5 日 2020 小米開發者大會上，小米集團副總裁、集團技術委員會主席崔寶秋就釋出了小米自然語言處理平臺 MiNLP 平臺開源計劃。現在，MiNLP 的分詞功能已經開源，接下來可以期待一下詞性標註、命名實體識別、句法分析等功能的開源。

據 2020 小米開發者大會上的訊息，詞性標註功能將於明年一季度開源，命名實體識別功能將於明年二季度開源，語義相關功能將於明年三季度開源。MiNLP 不同功能模組，將按計劃逐漸開源。

參考連結：

https://dy.163.com/article/FQLS8II705508TBC.html

https://mp.weixin.qq.com/s/wPx4LVEZ3QWL4jm6FNdRSw

北大開源了中文分詞工具包：準確率遠超THULAC、結巴分詞！
2019-01-11
中文分詞
Hanlp等七種優秀的開源中文分詞庫推薦
2018-10-12
HanLP中文分詞
北大開源全新中文分詞工具包：準確率遠超THULAC、結巴分詞
2019-01-10
中文分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
宜信開源|漏洞管理平臺『洞察』的設計理念和平臺功能
2019-07-10
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
開源面試題社群平臺上線了
2022-03-29
面試題
NLP之中文分詞
2020-10-12
中文分詞
中文分詞技術
2020-09-18
中文分詞
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
Coreseek-帶中文分詞的Sphinx
2020-04-05
中文分詞
古詩詞中文分詞自動化
2018-04-05
分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
.NET開源、功能強大、跨平臺的圖表庫 - LiveCharts2
2024-05-07
Echarts
開源工具、平臺列表
2018-11-16
開源工具
Spring MVCD框架中呼叫HanLP分詞的方法
2019-07-10
SpringMVC框架HanLP分詞
PHP通過FFI呼叫CJieba分詞
2020-07-31
PHPJieba分詞
PHP透過FFI呼叫CJieba分詞
2020-07-31
PHPJieba分詞
python呼叫hanlp分詞包手記
2018-12-26
PythonHanLP分詞
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
如何用Python做中文分詞？
2018-06-28
Python中文分詞
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
中文分詞器，整理自Ai
2024-08-01
中文分詞AI
中文搜尋引擎技術揭密：中文分詞
2020-04-05
中文分詞
開源監測平臺 WGCLOUD v3.4.6 更新功能詳解
2023-04-09
GCCloud
中文分詞的探索，CRF（條件隨機場）和HMM（隱馬爾可夫模型）用於分詞的對比，以及中文分詞的評估
2018-11-10
中文分詞CRF條件隨機場HMM隱馬爾可夫模型
三個月寫了個簡訊平臺，開源出來！
2023-11-26
HBuilder開發詞典app（四）--呼叫有道api完成翻譯功能
2018-07-19
UIAPPAPI
開源物聯網平臺和智慧家居平臺
2021-01-22
pyhanlp 中文詞性標註與分詞簡介
2019-01-07
HanLP詞性標註分詞
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
開源測試平臺--MeterSphere
2021-01-12
Python：Python 中 jieba 庫的使用（中文分詞）
2018-05-12
PythonJieba中文分詞
基於 HanLP 的 ES 中文分詞外掛
2018-12-23
HanLP中文分詞
[Python] 基於 jieba 的中文分詞總結
2021-02-21
PythonJieba中文分詞
直播平臺開發的小店功能強大，如何解決直播帶貨的貨源
2021-01-13
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞

每天呼叫達80億次的小米MiNLP平臺，近期又開源了中文分詞功能

相關文章