NLP——史丹佛分詞工具簡單使用
本例主要演示史丹佛的中文分詞工具包stanford-segmenter.jar
下載地址
解壓後如下:
建立好專案
將data資料夾匯入到專案根目錄下
匯入jar包
SegDemo.java檔案則是演示檔案
注意事項
SegDemo執行的時候要讀取data中的內容
查閱原始碼發現,最後返回的分詞集合segmented是陣列轉換成的(Arrays.asList()),不可進行修改。所以需要用list的構造方法重新構建一個。
下面是將程式碼封裝好後的測試案例
package com.hhh.part;
import java.io.*;
import java.util.LinkedList;
import java.util.List;
import java.util.Properties;
import org.junit.jupiter.api.Test;
import edu.stanford.nlp.ie.crf.CRFClassifier;
import edu.stanford.nlp.ling.CoreLabel;
public class PartWord {
private static final String basedir = System.getProperty("SegDemo", "data");
public static List<String> part(String sample) throws Exception {
System.setOut(new PrintStream(System.out, true, "utf-8"));
Properties props = new Properties();
props.setProperty("sighanCorporaDict", basedir);
props.setProperty("serDictionary", basedir + "/dict-chris6.ser.gz");
props.setProperty("inputEncoding", "UTF-8");
props.setProperty("sighanPostProcessing", "true");
CRFClassifier<CoreLabel> segmenter = new CRFClassifier<>(props);
segmenter.loadClassifierNoExceptions(basedir + "/ctb.gz", props);
List<String> segmented = segmenter.segmentString(sample);
return new LinkedList<>(segmented);//重構
}
@Test
public void test1() {
try {
System.out.println(part("韓國《中央日報》則報導稱,有人推測,"
+ "第二次朝美首腦會談的時間和地點有可能定於10月下旬左右在華盛頓舉行。"
+ "這一時期正好是對川普總統進行具有“期中考核”性質的11月6日美國中期選舉之前。"
+ "若第二次朝美首腦會談在美國舉行,將成為朝鮮首腦的第一次訪美。"
+ "然而正如朝鮮曾強烈要求第一次朝美首腦會談在平壤舉行一樣,"
+ "此次朝鮮也有可能提出在平壤舉行會談。"));
} catch (Exception e) {
e.printStackTrace();
}
}
}
相關文章
- 《史丹佛CS224n NLP》課程資料+知識工具
- NLP之中文分詞中文分詞
- 史丹佛NLP課程 | 第11講 - NLP中的卷積神經網路卷積神經網路
- 部分常用分詞工具使用整理分詞
- Python文字處理NLP:分詞與詞雲圖Python分詞
- NLP自然語言處理中英文分詞工具集錦與基本使用介紹自然語言處理分詞
- 史丹佛NLP團隊釋出最新自然語言處理Python庫自然語言處理Python
- NLP第3章 中文分詞技術中文分詞
- 單詞分類記憶_交通工具(vehicles)
- go練手:簡單的單詞格式轉換工具Go
- ChatGPT們的幕後先驅,史丹佛教授Manning的四十年NLP生涯ChatGPT
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- 單詞劃分
- NLP入門學習中關於分詞庫HanLP匯入使用教程分詞HanLP
- NLP標籤/關鍵詞-提取工具-java開發Java
- 簡單有效的多標準中文分詞詳解中文分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- NLP segment-01-聊一聊分詞 AI 的基礎分詞AI
- 中文分詞工具之基於字標註法的分詞中文分詞
- Android分頁元件Paging簡單使用Android元件
- java分詞工具hanlp介紹Java分詞HanLP
- SCWS PHP 中文簡易分詞PHP分詞
- NLP《詞彙表示方法(二)詞嵌入表示》
- nlp基礎之詞、子詞或字元字元
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- MybatisPlus的分頁外掛簡單使用MyBatis
- 故障排查工具-strace,tcpdump的簡單使用TCP
- Ansj與hanlp分詞工具對比HanLP分詞
- 史上最全中文分詞工具整理中文分詞
- python實現簡單猜單詞遊戲Python遊戲
- NLP-使用CNN進行文字分類CNN文字分類
- ElasticSearch中使用ik分詞器進行實現分詞操作Elasticsearch分詞
- 單詞分類記憶_衣服(clothes)
- NLP入門(九)詞義消岐(WSD)的簡介與實現
- 史丹佛:2023年AI指數報告AI
- 移動效能測試---工具PerfDog簡單使用
- 5分鐘搞清楚“SaaS簡史”