VicWord 一個純php的分詞

探索者1492569170005發表於2019-04-22

原文網址 : https://juejin.im/post/5cbd572ae51d456e5977b190

安裝

composer require lizhichao/word
複製程式碼

github:github.com/lizhichao/V…

分詞說明

含有3種切分方法
- getWord 長度優先切分。最快
- getShortWord 細粒度切分。比最快慢一點點
- getAutoWord 自動切分。效果最好
可自定義詞典，自己新增詞語到詞庫，詞庫支援文字格式json和二級制格式igb 二進位制格式詞典小，載入快
dict.igb含有175662個詞，歡迎大家補充詞語到 dict.txt ，格式(詞語 \t idf \t 詞性)
- idf 獲取方法百度搜尋這個詞語 Math.log(100000001/結果數量)，如果你有更好的方法歡迎補充。
- 詞性 [標點符號,名詞,動詞,形容詞,區別詞,代詞,數詞,量詞,副詞,介詞,連詞,助詞,語氣詞,擬聲詞,嘆詞] 取index ；標點符號取0
三種分詞結果對比

$fc = new VicWord('igb');
$arr = $fc->getWord('北京大學生喝進口紅酒，在北京大學生活區喝進口紅酒');
//北京大學|生喝|進口|紅酒|，|在|北京大學|生活區|喝|進口|紅酒
//$arr 是一個陣列 每個單元的結構[詞語,詞語位置,詞性,這個詞語是否包含在詞典中] 這裡只值列出了詞語

$arr =  $fc->getShortWord('北京大學生喝進口紅酒，在北京大學生活區喝進口紅酒');
//北京|大學|生喝|進口|紅酒|，|在|北京|大學|生活|區喝|進口|紅酒

$arr = $fc->getAutoWord('北京大學生喝進口紅酒，在北京大學生活區喝進口紅酒');
//北京|大學生|喝|進口|紅酒|，|在|北京大學|生活區|喝|進口|紅酒

//對比
//qq的分詞 http://nlp.qq.com/semantic.cgi#page2 
//百度的分詞 http://ai.baidu.com/tech/nlp/lexical

複製程式碼

分詞速度

機器阿里雲 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
getWord 每秒140w字
getShortWord 每秒138w字
getAutoWord 每秒40w字
測試文字在百度百科拷貝的一段5000字的文字

製作詞庫

詞庫支援utf-8的任意字元
詞典大小不影響分詞速度

只有一個方法 VicDict->add(詞語,詞性 = null)

//定義詞典檔案路徑
define('_VIC_WORD_DICT_PATH_',__DIR__.'/Data/dict.igb');

require __DIR__.'/Lib/VicDict.php';

//目前可支援 igb 和 json 兩種詞典庫格式；igb需要安裝igbinary擴充套件，igb檔案小，載入快
$dict = new VicDict('igb');

//新增詞語詞庫 add(詞語,詞性) 不分語言，可以是utf-8編碼的任何字元
$dict->add('中國','n');

//儲存詞庫
$dict->save();
複製程式碼

demo

該作者的其他軟體

一個極簡的高效能框架，可在php-fpm或者swoole非同步協程環境執行

一個分詞指令碼
2020-12-13
分詞指令碼
Hanlp中使用純JAVA實現CRF分詞
2018-10-19
HanLPJavaCRF分詞
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞-支援php5, php7
2019-05-10
JiebaPHP套件中文分詞
PHP通過FFI呼叫CJieba分詞
2020-07-31
PHPJieba分詞
PHP透過FFI呼叫CJieba分詞
2020-07-31
PHPJieba分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
Laravel 中使用 PHP 分詞庫 (jieba) 和 (scws)
2018-06-24
LaravelPHP分詞Jieba
中文分詞 PHP 擴充套件 SCWS 安裝
2020-12-10
中文分詞PHP套件
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
如何建立一個“純淨”的物件
2019-04-20
物件
二分查詢(一)——純粹的二分查詢
2018-09-24
一個詞彙的嬗變
2019-03-14
elastcisearch中文分詞器各個版本
2019-01-03
AST中文分詞
分詞之後一天
2024-04-02
分詞
分詞
2024-04-02
分詞
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
php陣列的分類有哪幾個
2021-09-11
PHP陣列
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
怎樣生成一個好的詞向量
2018-06-16
分詞-1
2024-04-02
分詞
過去分詞的辨析
2024-11-15
分詞
背單詞純英文 2024年09月
2024-09-01
用純 JavaScript 擼一個 MVC 程式
2019-08-08
JavaScriptMVC
使用“純”Servlet做一個單表的CRUD操作
2023-04-11
Servlet
PHP Composer 的一個小坑
2019-08-22
PHP
字串最後一個單詞的長度
2020-09-05
字串
如何實現一個詞雲
2021-09-23
python分詞和生成詞雲圖
2020-12-08
Python分詞
一個純前端實現的頭像生成網站
2024-08-02
前端網站
純 CSS 打造一個模態（modal）框
2019-06-06
CSS
使用純css來建立一個滑塊
2024-12-03
CSS
單詞劃分
2018-05-02
IK 分詞器
2022-01-09
分詞
剖析分詞器
2021-11-16
分詞
Elasticsearch 分詞器
2021-02-08
Elasticsearch分詞
NLP segment-01-聊一聊分詞 AI 的基礎
2024-11-01
分詞AI

VicWord 一個純php的分詞

安裝

分詞說明

分詞速度

製作詞庫

demo

該作者的其他軟體

相關文章