addresstool用於處理中文地址的分詞和匹配,採用NLP分詞演算法進行中文地址分詞 ,在中文地址分詞基礎上對垃圾地址進行識別,過濾,標記等。根據雜亂的業務地址自動化生成標準中文地址庫,並支援隨機業務地址關聯到標準地址操作,實測速度達到25000條/每秒
今天我們測試一下addresstool的地址分詞功能
上程式碼
public static void main(String[] args) {
AddressTool ss = new AddressTool();
List<String> words;
//正常地址
words = ss.cutAddress("湖北省武漢市漢陽區漢陽大道10號花果山5號樓1單元101室");
System.out.println(words);
//城市名補全
words = ss.cutAddress("湖北省武漢漢陽區漢陽大道10號花果山5棟1單元101戶");
System.out.println(words);
// 省份補全 城市補全
words = ss.cutAddress("湖北武漢漢陽區漢陽大道10號花果山5號樓1單元101室");
System.out.println(words);
}
列印結果
[province:湖北省, city:武漢市, county:漢陽區, road:漢陽大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
[province:湖北省, city:武漢市, county:漢陽區, road:漢陽大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
[province:湖北省, city:武漢市, county:漢陽區, road:漢陽大道, road_no:10, aoi:花果山, building:5, unit:1, room:101]
解析速度超級快,完美!
Java原始碼下載 > https://download.csdn.net/download/u011024436/89035851
如果想了解更多addresstool用法,歡迎關注我的部落格
如有問題或者建議,歡迎聯絡郵箱addresstool@163.com