hanlp中文智慧分詞自動識別文字提取例項
需求:客戶給銷售員自己的個人資訊,銷售幫助客戶下單,此過程需要銷售人員手動複製貼上收穫地址,電話,姓名等等,一個智慧的分詞系統可以讓銷售人員一鍵識別以上各種資訊
經過調研,找到了一下開源專案
1 、 word 分詞器
2 、 ansj 分詞器
3 、 mmseg4j 分詞器
4 、 ik-analyzer 分詞器
5 、 jcseg 分詞器
6 、 fudannlp 分詞器
7 、 smartcn 分詞器
8 、 jieba 分詞器
9 、 stanford 分詞器
10 、 hanlp 分詞器
最後選擇了 hanlp ,步驟官網都有,下面演示智慧匹配地址
1 List<Term> list = HanLP.newSegment().seg(" 湯姆江西省南昌市紅谷灘新區 111 號電話 12023232323");
2 System.out.println(list);
輸出
1 [ 湯姆 /nrf, 江西省 /ns, 南昌市 /ns, 紅谷灘 /nz, 新區 /n, 111/m, 號 /q, 電話 /n, 12023232323/m]
大公告成,不過前提必須下載那個 600 多 M 的 data 包並匯入,才可以識別地址,否則只是做了初步的識別
附上完整程式碼
1 String str = " 湯姆 江西省南昌市紅谷灘新區 111 號 12023232323";
2 String address = "";
3 String phone = "";
4 String name = "";
5 List<Term> terms = NLPTokenizer.segment(str);
6 System.out.println(terms);
7 for (Term term : terms) {
8 if (term.nature.startsWith("nr")){
9 //nr 代表人名
10 name = term.word;
11 System.out.println("name: " + term.word);
12 }else if (term.nature.startsWith("m") && term.word.length() == 11){
13 //m 代表數字
14 phone = term.word;
15 System.out.println(" 電話 : " + term.word);
16 }
17 }
18 // 由於地址包含了數字,解析的時候數字成為單獨的個體,與實際不符,所以透過差集求出地址
19 address = str.replace(phone, "").replace(name, "").trim();
20 System.out.println("address: " + address);
執行結果
1 name: 湯姆
2 電話 : 12023232323
3 address: 江西省南昌市紅谷灘新區 111 號
---------------------
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2222231/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Hanlp分詞例項:Java實現TFIDF演算法HanLP分詞Java演算法
- HanLP分詞命名實體提取詳解HanLP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- 古詩詞 中文 分詞 自動化分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- hanlp原始碼解析之中文分詞演算法詳解HanLP原始碼中文分詞演算法
- 中文分詞器,整理自Ai中文分詞AI
- HanLP-實詞分詞器詳解HanLP分詞
- excel表格文字識別-ocr表格文字提取api介面整合ExcelAPI
- HanLP 關鍵詞提取演算法分析詳解HanLP演算法
- java分詞工具hanlp介紹Java分詞HanLP
- Hanlp等七種優秀的開源中文分詞庫推薦HanLP中文分詞
- API智慧識別平臺,API介面自動識別API
- C# 10分鐘完成百度圖片提取文字(文字識別)——入門篇C#
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- Ansj與hanlp分詞工具對比HanLP分詞
- python呼叫hanlp分詞包手記PythonHanLP分詞
- 手機如何提取圖片中的文字、拍照識別文字的操作
- OCR文字識別工具:OCRKit Pro中文
- HanLP分類模組的分詞器介紹HanLP分詞
- 如何用Python提取中文關鍵詞?Python
- 基於hanlp的es分詞外掛HanLP分詞
- iText for MacOCR識別圖中文字工具Mac
- 自然語言處理工具python呼叫hanlp中文實體識別自然語言處理PythonHanLP
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- 從圖片提取文字的終極解決方法 ——【通用文字識別 API】API
- 提取圖片中文字的教程
- Python 短文字自動識別個體是否有自殺傾向Python
- textarea文字框高度自適應程式碼例項
- 利用LSTM自動生成中文文字
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python