pyhanlp 繁簡轉換之拼音轉換與字元正則化
繁簡轉換
HanLP 幾乎實現了所有我們需要的繁簡轉換方式,並且已經封裝到了 HanLP 中,使得我們可以輕鬆的使用,而分詞器中已經預設支援多種繁簡格式或者混合。這裡我們不再做過多描述。
· 說明
· HanLP 能夠識別簡繁分歧詞,比如印表機 = 印表機。許多簡繁轉換工具不能區分“以後”“皇后”中的兩個“後”字, HanLP 可以。
· 演算法詳解
· 《漢字轉拼音與簡繁轉換的 Java 實現》
漢字轉拼音
HanLP 中的漢字轉拼音功能也十分的強大。
· 說明
· HanLP 不僅支援基礎的漢字轉拼音,還支援聲母、韻母、音調、音標和輸入法首字母首聲母功能。
· HanLP 能夠識別多音字,也能給繁體中文注拼音。
· 最重要的是, HanLP 採用的模式匹配升級到 AhoCorasickDoubleArrayTrie ,效能大幅提升,能夠提供毫秒級的響應速度!
· 演算法詳解
· 《漢字轉拼音與簡繁轉換的 Java 實現》
拼音轉中文
HanLP 中的資料結構和介面是靈活的,組合這些介面,可以自己創造新功能,我們可以使用 AhoCorasickDoubleArrayTrie 實現的最長分詞器,需要使用者呼叫 setTrie() 提供一個 AhoCorasickDoubleArrayTrie
字元正則化
演示正規化字元配置項的效果(繁體 -> 簡體,全形 -> 半形,大寫 -> 小寫)。
該配置項位於 hanlp.properties 中,通過 Normalization=true 來開啟(現在直接通過 HanLP.Config.Normalization 開啟即可)。
切換配置後必須刪除 CustomDictionary.txt.bin 快取,否則隻影響動態插入的新詞。
在我動筆前一個星期,已經有同學新增了,新增自定義詞典之後,自動刪除快取的功能。地址請點選 https://github.com/hankcs/HanLP/pull/954 ,現在只需要開啟正則化即可
1| HanLP.Config.Normalization = False
2|
3| [ 愛聽 4g]
4| [ 愛聽 4G]
5| [ 愛 , 聽 , 4 , G]
6| [ 愛 , 聽 , 4 , G ]
7| [ 愛 , 聽 , 4 , G ]
8| [ 喜歡 , 4 , G ]
9| [hankcs, 在 , 臺 , 灣寫 , 代 , 碼 ]
10|
11| HanLP.Config.Normalization = True
12|
13| [ 愛聽 4g]
14| [ 愛聽 4g]
15| [ 愛聽 4g]
16| [ 愛聽 4g]
17| [ 愛聽 4g]
18| [ 喜歡 , 4, g]
19 | [hankcs, 在 , 臺灣 , 寫 , 程式碼 ]
20| 現在的 HanLP 已經新增了新增自定義詞典之後,自動刪除快取的功能 , 現在只需要開啟正則化即可
21| [ 現在 , 的 , hanlp, 已經 , 新增 , 了 , 新增 , 自定義 , 詞典 , 之後 , ,, 自動 , 刪除 , 快 , 取 , 的 , 功能 , ,, 現在 , 只 , 需要 , 開啟 , 正 , 則 , 化 , 即可 ]
---------------------
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2649016/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 漢語言處理工具pyhanlp的拼音轉換與字元正則化HanLP字元
- 漢語言處理工具pyhanlp的簡繁轉換HanLP
- Python 輕量化簡繁轉換Python
- 使用正則 轉換大小寫
- JS 漢字轉換拼音JS
- 字元編碼轉換字元
- 正則替換 修改字元 去除空格字元
- xpinyin:漢字轉換為拼音庫
- 第42篇 字元與進位制之間的轉換字元
- URL地址特殊字元轉換字元
- java 中文繁簡體轉換工具 opencc4jJavaOpencc4j
- 【Go】IP地址轉換:數字與字串之間高效轉換Go字串
- 中文簡繁體轉化
- 鴻蒙NEXT開發案例:簡體繁體轉換器鴻蒙
- gb2312簡繁轉換js相容各種瀏覽器JS瀏覽器
- 學習-Java順序結構之字元變換之大小寫字母轉換Java字元
- CAD怎麼轉換成PDF格式?CAD轉換PDF的正確方法
- CSS text-transform字元大小寫轉換CSSORM字元
- 資料轉換-16進位制字元字元
- python str與bytes之間的轉換Python
- list與字串轉換字串
- PHP 字元轉拼音首字iconv 警告錯誤PHP字元
- 2020-11-13整數轉換為字串 字元反轉字串字元
- js視訊轉字元畫 —— 寫一個屬於自己的字元轉換器JS字元
- iOS引用轉換:Foundation與Core Foundation物件互相轉換(__CFString轉NSString,void *轉id等等)iOS物件
- java 中文繁簡體轉換工具 opencc4j 使用介紹 1.8.0JavaOpencc4j
- Java之時間轉換Java
- 4-字元轉換及所在位置字元
- Java如何將字串轉換為字元陣列?Java字串字元陣列
- 一次ORACLE字元轉換分析過程Oracle字元
- js做資料的轉義字元替換JS字元
- mysql時間與字串之間相互轉換MySql字串
- Java中Array與ArrayList之間的轉換Java
- Python-網頁轉義字元及正則全文匹配Python網頁字元
- pdf轉換word,超簡單!
- RGB與YIQ的轉換
- float與byte[]互相轉換
- UIImage與Iplimage相互轉換UI