HanLP 自然語言處理 for nodejs
· 支援中文分詞( N-最短路分詞、CRF分詞、索引分詞、使用者自定義詞典、詞性標註),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文字推薦,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)
環境要求
java 1.8
nodejs >= 6
docker
· build image
cd node-hanlp
./scripts/build-docker-image.sh
Or pull image
docker pull samurais/hanlp-api:1.0.0
· start container
docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0
· access service
POST /tokenizer HTTP/1.1
Host: localhost:3002
Content-Type: application/json
{
"type": "nlp",
"content": "劉德華和張學友創作了很多流行歌曲"
}
RESPONSE
{
"status": "success",
"data": [
{
"word": "劉德華",
"nature": "nr",
"offset": 0
},
{
"word": "和",
"nature": "cc",
"offset": 0
},
{
"word": "張學友",
"nature": "nr",
"offset": 0
},
{
"word": "創作",
"nature": "v",
"offset": 0
},
{
"word": "了",
"nature": "ule",
"offset": 0
},
{
"word": "很多",
"nature": "m",
"offset": 0
},
{
"word": "流行歌曲",
"nature": "n",
"offset": 0
}
]
}
· Other APIs
l tokenizer 分詞
l keyword 關鍵詞
l summary 摘要
l phrase 短語提取
l query 關鍵詞、摘要
l conversion 簡、繁、拼音轉換
原始碼
node module
· Install
npm install node-hanlp
· Config
² 配置檔案路徑 node_modules/node-hanlp/lib/src-java/hanLP.proerties
² 請修改 root為您的目錄路徑
² 詞典檔案目錄 ./data
² 請下載詞典 pan.baidu.com/s/1pKUVNYF 放入 ./data (約800MB檔案) 目錄下
· Usage
const Hanlp = require("node-hanlp");
//分詞庫初始化及配置
const HanLP = new Hanlp({
CustomDict : true, //使用自定義詞典
NameRecognize : true, //中國人名識別
TranslatedNameRecognize : true , //音譯人名識別
JapaneseNameRecognize : true, //日本人名識別
PlaceRecognize : true , //地名識別
OrgRecognize : true //機構名識別
});
let words = HanLP.Tokenizer("商品和服務");
標準分詞 HanLP.Tokenizer( text )
@param String text [文字]
@ruten Object
let words = HanLP.Tokenizer("商品和服務");
[
{ word: '商品', nature: 'n', offset: 0 },
{ word: '和', nature: 'cc', offset: 0 },
{ word: '服務', nature: 'vn', offset: 0 }
]
NLP分詞 HanLP.NLPTokenizer( text )
@param String text [文字]
@ruten Object
let words = HanLP.NLPTokenizer("zhongguo科學院計算技術研究所的宗成慶教授正在教授自然語言處理課程");
[
{ word: '中國科學院計算技術研究所', nature: 'nt', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '宗成慶', nature: 'nr', offset: 0 },
{ word: '教授', nature: 'nnt', offset: 0 },
...
]
索引分詞 HanLP.IndexTokenizer( text )
@param String text [文字]
@ruten Object
let words = HanLP.IndexTokenizer("主副食品");
[
{ word: '主副食品', nature: 'n', offset: 0 },
{ word: '主副食', nature: 'j', offset: 0 },
{ word: '副食', nature: 'n', offset: 1 },
{ word: '副食品', nature: 'n', offset: 1 },
{ word: '食品', nature: 'n', offset: 2 }
]
CRF分詞 HanLP.CRFTokenizer( text )
@param String text [文字]
@ruten Object
let words = HanLP.CRFTokenizer("你好,歡迎使用HanLP漢語處理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: '歡迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '漢語', nature: 'gi', offset: 0 },
...
]
去除停用詞分詞 HanLP.NoStopWord( text )
@param String text [文字]
@ruten Object
let words = HanLP.NoStopWord("你好,歡迎使用HanLP漢語處理包!");
[
{ word: '你好', nature: 'vl', offset: 0 },
{ word: '歡迎', nature: 'v', offset: 0 },
{ word: '使用', nature: 'v', offset: 0 },
{ word: 'HanLP', nature: 'nz', offset: 0 },
{ word: '漢語', nature: 'gi', offset: 0 },
...
]
最短路分詞 HanLP.ShortSegment( text )
@param String text [文字]
@ruten Object
let words = HanLP.ShortSegment("今天, liuzhijun 案的關鍵人物 ,山西女商人 dingshumiao 在市二中院出庭shoushen。 ");
[
{ word: '今天', nature: 't', offset: 0 },
{ word: ',', nature: 'w', offset: 0 },
{ word: ' liushijun ', nature: 'nr', offset: 0 },
{ word: '案', nature: 'ng', offset: 0 },
{ word: '的', nature: 'ude1', offset: 0 },
{ word: '關鍵', nature: 'n', offset: 0 },
...
]
N-最短分詞 HanLP.NShortSegment( text )
@param String text [文字]
@ruten Object
let words = HanLP.NShortSegment("劉喜傑石國祥會見吳亞琴先進事蹟報告團成員");
[
{ word: '劉喜傑', nature: 'nr', offset: 0 },
{ word: '石國祥', nature: 'nr', offset: 0 },
{ word: '會見', nature: 'v', offset: 0 },
{ word: '吳亞琴', nature: 'nr', offset: 0 },
{ word: '先進', nature: 'a', offset: 0 },
...
]
極速詞典分詞 HanLP.SpeedTokenizer( text )
@param String text [文字]
@ruten Object
let words = HanLP.SpeedTokenizer("江西鄱陽湖乾枯,中國最大淡水湖變成大草原");
[
{ word: '江西', offset: 0 },
{ word: '鄱陽湖', offset: 2 },
{ word: '乾枯', offset: 5 },
{ word: ',', offset: 7 },
{ word: '中國', offset: 8 },
]
關鍵詞提取 HanLP.Keyword( text , nTop )
@param String text [文字]
@param Number nTop [關鍵詞個數,預設5個]
@ruten Object
let words = HanLP.Keyword("江西鄱陽湖乾枯,中國最大淡水湖變成大草原" , 3);
[ '中國', '最大', '淡水湖' ]
短語提取 HanLP.Phrase( text , nTop )
@param String text [文字]
@param Number nTop [短語個數,預設3個]
@ruten Object
let words = HanLP.Phrase("江西鄱陽湖乾枯,中國最大淡水湖變成大草原" , 2 );
[ '中國最大', '變成草原' ]
提取文章摘要 HanLP.Summary( text , nTop )
@param String text [文字]
@param Number nTop [文章摘要條數,預設3條]
@ruten Object
let text = "據美國福克斯新聞報導,俄羅斯黑海艦隊一艘護衛艦格里戈羅維奇海軍上將號,正在駛向美國軍艦發射 daodan 攻擊敘利亞的區域。該護衛艦是俄羅斯最先進的護衛艦,2016年才剛服役,除防空、反艦 daodan 外,也可以發射巡航 daodan 。格里戈羅維奇海軍上將號原定於本週訪問敘利亞的塔爾圖斯港。"
let words = HanLP.Summary( text , 3);
[
'俄羅斯黑海艦隊一艘護衛艦格里戈羅維奇海軍上將號',
'格里戈羅維奇海軍上將號原定於本週訪問敘利亞的塔爾圖斯港',
'正在駛向美國軍艦發射 daodan 攻擊敘利亞的區域'
]
文字推薦 HanLP.Suggester( list, words, Ntop )
@param Array list 句子列表
@param Array words 詞語
@param Number nTop 相似句子推薦個數,預設1個
@ruten Object
句子級別,從一系列句子中挑出與輸入句子最相似的那一個
語義距離 HanLP.WordDistance( words )
@param Array words 詞
@ruten Object
簡繁轉換 HanLP.ConversionFont( text , type )
@param String text 文字
@ruten String type 型別 jt簡體|ft繁體,預設jt
@ruten String
拼音轉換 HanLP.Pinyin( text , type )
@param String text 文字
@ruten String type 型別 型別 num數字音調|tone符號音調|outtone無音調|shengmu聲母|yunmu韻母|head輸入法頭,預設outtone
@ruten Object
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2642343/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 配置Hanlp自然語言處理進階HanLP自然語言處理
- hanlp自然語言處理包的基本使用--pythonHanLP自然語言處理Python
- 如何編譯執行HanLP自然語言處理包編譯HanLP自然語言處理
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- Hanlp自然語言處理中的詞典格式說明HanLP自然語言處理
- hanlp自然語言處理包的人名識別程式碼解析HanLP自然語言處理
- 自然語言處理之:搭建基於HanLP的開發環境自然語言處理HanLP開發環境
- python呼叫自然語言處理工具hanlp記錄Python自然語言處理HanLP
- Hanlp自然語言處理工具的使用演練HanLP自然語言處理
- nodejs在自然語言處理中的一些小應用NodeJS自然語言處理
- 自然語言處理(NLP)系列(一)——自然語言理解(NLU)自然語言處理
- 自然語言處理NLP(四)自然語言處理
- 自然語言處理(NLP)概述自然語言處理
- 自然語言處理工具包HanLP的Python介面自然語言處理HanLPPython
- 自然語言處理入門基礎之hanlp詳解自然語言處理HanLP
- Hanlp自然語言處理工具之詞法分析器HanLP自然語言處理詞法分析
- 自然語言處理工具python呼叫hanlp的方法步驟自然語言處理PythonHanLP
- [譯] 自然語言處理真是有趣!自然語言處理
- 自然語言處理:分詞方法自然語言處理分詞
- 自然語言處理工具hanlp自定義詞彙新增圖解自然語言處理HanLP圖解
- 自然語言處理工具hanlp定製使用者詞條自然語言處理HanLP
- 自然語言處理工具HanLP-N最短路徑分詞自然語言處理HanLP分詞
- 自然語言處理工具python呼叫hanlp中文實體識別自然語言處理PythonHanLP
- 自然語言處理NLP快速入門自然語言處理
- 自然語言處理的最佳實踐自然語言處理
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- 人工智慧 (06) 自然語言處理人工智慧自然語言處理
- 自然語言處理與情緒智慧自然語言處理
- Pytorch系列:(六)自然語言處理NLPPyTorch自然語言處理
- 精通Python自然語言處理 2 :統計語言建模Python自然語言處理
- 中國語文(自然語言處理)作業自然語言處理
- 中文自然語言處理工具hanlp隱馬角色標註詳解自然語言處理HanLP
- 自然語言處理中的語言模型預訓練方法自然語言處理模型
- 自然語言處理NLP(6)——詞法分析自然語言處理詞法分析
- 自然語言處理怎麼最快入門?自然語言處理
- 精通Python自然語言處理 1 :字串操作Python自然語言處理字串
- 深度解析自然語言處理之篇章分析自然語言處理
- 自然語言處理(NLP)路線圖 - kdnuggets自然語言處理