pyhanlp 繁簡轉換之拼音轉換與字元正則化
繁簡轉換
HanLP 幾乎實現了所有我們需要的繁簡轉換方式,並且已經封裝到了 HanLP 中,使得我們可以輕鬆的使用,而分詞器中已經預設支援多種繁簡格式或者混合。這裡我們不再做過多描述。
· 說明
· HanLP 能夠識別簡繁分歧詞,比如印表機 = 印表機。許多簡繁轉換工具不能區分“以後”“皇后”中的兩個“後”字, HanLP 可以。
· 演算法詳解
· 《漢字轉拼音與簡繁轉換的 Java 實現》
漢字轉拼音
HanLP 中的漢字轉拼音功能也十分的強大。
· 說明
· HanLP 不僅支援基礎的漢字轉拼音,還支援聲母、韻母、音調、音標和輸入法首字母首聲母功能。
· HanLP 能夠識別多音字,也能給繁體中文注拼音。
· 最重要的是, HanLP 採用的模式匹配升級到 AhoCorasickDoubleArrayTrie ,效能大幅提升,能夠提供毫秒級的響應速度!
· 演算法詳解
· 《漢字轉拼音與簡繁轉換的 Java 實現》
拼音轉中文
HanLP 中的資料結構和介面是靈活的,組合這些介面,可以自己創造新功能,我們可以使用 AhoCorasickDoubleArrayTrie 實現的最長分詞器,需要使用者呼叫 setTrie() 提供一個 AhoCorasickDoubleArrayTrie
字元正則化
演示正規化字元配置項的效果(繁體 -> 簡體,全形 -> 半形,大寫 -> 小寫)。
該配置項位於 hanlp.properties 中,通過 Normalization=true 來開啟(現在直接通過 HanLP.Config.Normalization 開啟即可)。
切換配置後必須刪除 CustomDictionary.txt.bin 快取,否則隻影響動態插入的新詞。
在我動筆前一個星期,已經有同學新增了,新增自定義詞典之後,自動刪除快取的功能。地址請點選 https://github.com/hankcs/HanLP/pull/954 ,現在只需要開啟正則化即可
1| HanLP.Config.Normalization = False
2|
3| [ 愛聽 4g]
4| [ 愛聽 4G]
5| [ 愛 , 聽 , 4 , G]
6| [ 愛 , 聽 , 4 , G ]
7| [ 愛 , 聽 , 4 , G ]
8| [ 喜歡 , 4 , G ]
9| [hankcs, 在 , 臺 , 灣寫 , 代 , 碼 ]
10|
11| HanLP.Config.Normalization = True
12|
13| [ 愛聽 4g]
14| [ 愛聽 4g]
15| [ 愛聽 4g]
16| [ 愛聽 4g]
17| [ 愛聽 4g]
18| [ 喜歡 , 4, g]
19 | [hankcs, 在 , 臺灣 , 寫 , 程式碼 ]
20| 現在的 HanLP 已經新增了新增自定義詞典之後,自動刪除快取的功能 , 現在只需要開啟正則化即可
21| [ 現在 , 的 , hanlp, 已經 , 新增 , 了 , 新增 , 自定義 , 詞典 , 之後 , ,, 自動 , 刪除 , 快 , 取 , 的 , 功能 , ,, 現在 , 只 , 需要 , 開啟 , 正 , 則 , 化 , 即可 ]
---------------------
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2649016/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 漢語言處理工具pyhanlp的拼音轉換與字元正則化HanLP字元
- 漢語言處理工具pyhanlp的簡繁轉換HanLP
- 使用正則 轉換大小寫
- Python 輕量化簡繁轉換Python
- GBK中文繁簡轉換函式函式
- JS 漢字轉換拼音JS
- 正則替換 修改字元 去除空格字元
- 利用正則批次替換指定字元字元
- python實現中文字元繁體和簡體中文轉換Python字元
- nodejs字元與位元組之間的轉換NodeJS字元
- javascript 字元轉換為ascii碼,ascii碼轉換為字元JavaScript字元ASCII
- 用JAVA轉換簡繁體的基礎知識 (轉)Java
- ascii碼與字元的相互轉換ASCII字元
- 字元編碼轉換字元
- 字元型別轉換字元型別
- js漢字轉換為拼音功能JS
- php 漢字轉換成拼音 程式PHP
- Shell轉義字元與變數替換字元變數
- java 中文繁簡體轉換工具 opencc4jJavaOpencc4j
- URL地址特殊字元轉換字元
- java字元編碼轉換Java字元
- 數值轉換為字元字元
- oracle 外部表 漢字轉換為拼音Oracle
- dataguard型別轉換與模式轉化型別模式
- Linux 字元編碼 檢視與轉換Linux字元
- 【Go】IP地址轉換:數字與字串之間高效轉換Go字串
- php 的字元編碼轉換工具 (轉)PHP字元
- 機器學習之簡化正則化:L2 正則化機器學習
- javascript字元編碼轉換方法JavaScript字元
- iconv字元編碼轉換字元
- PHP資料型別轉換(字元轉數字,數字轉字元)PHP資料型別字元
- Windows中兩種多字元與寬字元的轉換方法薦Windows字元
- 用CLR整合為SQL 2005新增簡繁轉換功能SQL
- 機器學習之簡化正則化:Lambda機器學習
- jQuery物件與DOM物件之轉換jQuery物件
- NSData與UIImage之間的轉換UI
- JS簡碼轉換JS
- 中文轉換成unicode字元,實現國際化Unicode字元