HanLP 自然語言處理 for nodejs

adnb34g發表於2019-04-24


· 支援中文分詞( N-最短路分詞、CRF分詞、索引分詞、使用者自定義詞典、詞性標註),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文字推薦,依存句法分析(MaxEnt依存句法分析、CRF依存句法分析)

 

環境要求

java 1.8

nodejs >= 6

 

docker

 

· build image

cd node-hanlp

./scripts/build-docker-image.sh

 

Or pull image

docker pull samurais/hanlp-api:1.0.0

·   start container

docker run -it --rm -p 3002:3000 samurais/hanlp-api:1.0.0

· access service

POST /tokenizer HTTP/1.1

Host: localhost:3002

Content-Type: application/json

 

{

"type": "nlp",

"content": "劉德華和張學友創作了很多流行歌曲"

}

 

RESPONSE

{

  "status": "success",

  "data": [

    {

      "word": "劉德華",

      "nature": "nr",

      "offset": 0

    },

    {

      "word": "和",

      "nature": "cc",

      "offset": 0

    },

    {

      "word": "張學友",

      "nature": "nr",

      "offset": 0

    },

    {

      "word": "創作",

      "nature": "v",

      "offset": 0

    },

    {

      "word": "了",

      "nature": "ule",

      "offset": 0

    },

    {

      "word": "很多",

      "nature": "m",

      "offset": 0

    },

    {

      "word": "流行歌曲",

      "nature": "n",

      "offset": 0

    }

  ]

}

· Other APIs

 

tokenizer 分詞

keyword 關鍵詞

summary 摘要

phrase 短語提取

query 關鍵詞、摘要

conversion 簡、繁、拼音轉換

 

原始碼

node module

 

· Install

npm install node-hanlp

· Config

 

²  配置檔案路徑 node_modules/node-hanlp/lib/src-java/hanLP.proerties

²  請修改 root為您的目錄路徑

²  詞典檔案目錄 ./data

²  請下載詞典   pan.baidu.com/s/1pKUVNYF 放入 ./data (約800MB檔案) 目錄下

 

· Usage

const Hanlp = require("node-hanlp");

//分詞庫初始化及配置

const HanLP = new Hanlp({

CustomDict : true, //使用自定義詞典

NameRecognize : true, //中國人名識別

TranslatedNameRecognize : true , //音譯人名識別

JapaneseNameRecognize : true, //日本人名識別

PlaceRecognize : true , //地名識別

OrgRecognize : true //機構名識別

});

let words = HanLP.Tokenizer("商品和服務");

 

標準分詞 HanLP.Tokenizer( text )

@param String text [文字]

@ruten Object

let words = HanLP.Tokenizer("商品和服務");

 

[

  { word: '商品', nature: 'n', offset: 0 },

  { word: '和', nature: 'cc', offset: 0 },

  { word: '服務', nature: 'vn', offset: 0 }

]

NLP分詞 HanLP.NLPTokenizer( text )

@param String text [文字]

@ruten Object

let words = HanLP.NLPTokenizer("zhongguo科學院計算技術研究所的宗成慶教授正在教授自然語言處理課程");

 

[

  { word: '中國科學院計算技術研究所', nature: 'nt', offset: 0 },

  { word: '的', nature: 'ude1', offset: 0 },

  { word: '宗成慶', nature: 'nr', offset: 0 },

  { word: '教授', nature: 'nnt', offset: 0 },

  ...

]

索引分詞 HanLP.IndexTokenizer( text )

@param String text [文字]

@ruten Object

let words = HanLP.IndexTokenizer("主副食品");

 

[

  { word: '主副食品', nature: 'n', offset: 0 },

  { word: '主副食', nature: 'j', offset: 0 },

  { word: '副食', nature: 'n', offset: 1 },

  { word: '副食品', nature: 'n', offset: 1 },

  { word: '食品', nature: 'n', offset: 2 }

]

CRF分詞 HanLP.CRFTokenizer( text )

@param String text [文字]

@ruten Object

let words = HanLP.CRFTokenizer("你好,歡迎使用HanLP漢語處理包!");

 

[

  { word: '你好', nature: 'vl', offset: 0 },

  { word: ',', nature: 'w', offset: 0 },

  { word: '歡迎', nature: 'v', offset: 0 },

  { word: '使用', nature: 'v', offset: 0 },

  { word: 'HanLP', nature: 'nz', offset: 0 },

  { word: '漢語', nature: 'gi', offset: 0 },

  ...

]

去除停用詞分詞 HanLP.NoStopWord( text )

@param String text [文字]

@ruten Object

let words = HanLP.NoStopWord("你好,歡迎使用HanLP漢語處理包!");

 

[

  { word: '你好', nature: 'vl', offset: 0 },

  { word: '歡迎', nature: 'v', offset: 0 },

  { word: '使用', nature: 'v', offset: 0 },

  { word: 'HanLP', nature: 'nz', offset: 0 },

  { word: '漢語', nature: 'gi', offset: 0 },

  ...

]

最短路分詞 HanLP.ShortSegment( text )

@param String text [文字]

@ruten Object

let words = HanLP.ShortSegment("今天, liuzhijun 案的關鍵人物 ,山西女商人 dingshumiao 在市二中院出庭shoushen。 ");

 

[

  { word: '今天', nature: 't', offset: 0 },

  { word: ',', nature: 'w', offset: 0 },

  { word: ' liushijun ', nature: 'nr', offset: 0 },

  { word: '案', nature: 'ng', offset: 0 },

  { word: '的', nature: 'ude1', offset: 0 },

  { word: '關鍵', nature: 'n', offset: 0 },

  ...

]

N-最短分詞 HanLP.NShortSegment( text )

@param String text [文字]

@ruten Object

let words = HanLP.NShortSegment("劉喜傑石國祥會見吳亞琴先進事蹟報告團成員");

 

[

  { word: '劉喜傑', nature: 'nr', offset: 0 },

  { word: '石國祥', nature: 'nr', offset: 0 },

  { word: '會見', nature: 'v', offset: 0 },

  { word: '吳亞琴', nature: 'nr', offset: 0 },

  { word: '先進', nature: 'a', offset: 0 },

  ...

]

極速詞典分詞 HanLP.SpeedTokenizer( text )

@param String text [文字]

@ruten Object

let words = HanLP.SpeedTokenizer("江西鄱陽湖乾枯,中國最大淡水湖變成大草原");

 

[

  { word: '江西', offset: 0 },

  { word: '鄱陽湖', offset: 2 },

  { word: '乾枯', offset: 5 },

  { word: ',', offset: 7 },

  { word: '中國', offset: 8 },

]

關鍵詞提取 HanLP.Keyword( text , nTop )

@param String text [文字]

@param Number nTop [關鍵詞個數,預設5個]

@ruten Object

let words = HanLP.Keyword("江西鄱陽湖乾枯,中國最大淡水湖變成大草原" , 3);

 

[ '中國', '最大', '淡水湖' ]

短語提取 HanLP.Phrase( text , nTop )

@param String text [文字]

@param Number nTop [短語個數,預設3個]

@ruten Object

let words = HanLP.Phrase("江西鄱陽湖乾枯,中國最大淡水湖變成大草原" , 2 );

 

[ '中國最大', '變成草原' ]

提取文章摘要 HanLP.Summary( text , nTop )

@param String text [文字]

@param Number nTop [文章摘要條數,預設3條]

@ruten Object

let text = "據美國福克斯新聞報導,俄羅斯黑海艦隊一艘護衛艦格里戈羅維奇海軍上將號,正在駛向美國軍艦發射 daodan 攻擊敘利亞的區域。該護衛艦是俄羅斯最先進的護衛艦,2016年才剛服役,除防空、反艦 daodan 外,也可以發射巡航 daodan 。格里戈羅維奇海軍上將號原定於本週訪問敘利亞的塔爾圖斯港。"

 

let words = HanLP.Summary( text , 3);

 

[

  '俄羅斯黑海艦隊一艘護衛艦格里戈羅維奇海軍上將號',

  '格里戈羅維奇海軍上將號原定於本週訪問敘利亞的塔爾圖斯港',

  '正在駛向美國軍艦發射 daodan 攻擊敘利亞的區域'

]

文字推薦 HanLP.Suggester( list, words, Ntop )

 

@param Array list 句子列表

@param Array words 詞語

@param Number nTop 相似句子推薦個數,預設1個

@ruten Object

 

句子級別,從一系列句子中挑出與輸入句子最相似的那一個

語義距離 HanLP.WordDistance( words )

 

@param Array words

@ruten Object

簡繁轉換 HanLP.ConversionFont( text , type )

 

@param String text 文字

@ruten String type 型別 jt簡體|ft繁體,預設jt

@ruten String

拼音轉換 HanLP.Pinyin( text , type )

 

@param String text 文字

@ruten String type 型別 型別 num數字音調|tone符號音調|outtone無音調|shengmu聲母|yunmu韻母|head輸入法頭,預設outtone

@ruten Object


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2642343/,如需轉載,請註明出處,否則將追究法律責任。

相關文章