Java實現過濾中文亂碼
最近在日誌資料清洗時遇到中文亂碼,如果只要有非中文字元就將該字串過濾掉,這種方法雖簡單但並不可取,因為比如像Xperia™主題、天天四川Ⅱ這樣的字串也會被過濾掉。 |
Unicode編碼是一種涵蓋了世界上所有語言、標點等字元的編碼方式,簡單一點說,就是一種通用的世界碼;其編碼範圍:U+0000 .. U+10FFFF。按Unicode硬編碼的區間進行劃分,Unicode編碼被分成若干個block ( Unicode block);每一個Unicode編碼專屬於唯一的Unicode block,Unicode block之間互不重疊。從碼字的本身的屬性出發,Unicode編碼被分成了若干script ( Unicode script);比如,與中文相關的字元、標點的scriptHan包括block如下:
- CJK Radicals Supplement
- Kangxi Radicals
- CJK Symbols and Punctuation中的15個字元
- CJK Unified Ideographs Extension A
- CJK Unified Ideographs
- CJK Compatibility Ideographs
- CJK Unified Ideographs Extension B
- CJK Unified Ideographs Extension C
- CJK Unified Ideographs Extension D
- CJK Unified Ideographs Extension E
- CJK Compatibility Ideographs Supplement
其中,常見的中文字元在CJK Unified Ideographs block;此外,考慮繁體字及不常見字等,CJK還有A、B、C、D、E五個extension。Basic Latin block完整地包含了ASCII碼的控制字元、標點字元與英文字母字元。
JDK完整實現Unicode的block與script:
Char c = '☎' Character.UnicodeBlock ub = Character.UnicodeBlock.of(c) Character.UnicodeScript uc = Character.UnicodeScript.of(c);
Java中的字元char內建的編碼方式是UTF-16,當char強轉成int型別時,其返回值是unicode編碼值,只有當getbyte時才返回的是utf-8編碼的byte:
String s = "\u00a0"; String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0 import org.apache.commons.codec.binary.Hex; Hex.encodeHex(s.getBytes()) // --> c2a0
UTF-8是Unicode字元的變長字首編碼的一種實現,二者之間的對應關係在這裡.現在我們回到開篇過濾中文亂碼的問題,有一個基本解決思路:
- 去掉各種標點字元、控制字元,
- 計算剩下字元中非中文字元所佔的比例,如果超過閾值,則認為該字串為亂碼串
完整程式碼如下:
public class ChineseUtill { private static boolean isChinese(char c) { Character.UnicodeScript sc = Character.UnicodeScript.of(c); if (sc == Character.UnicodeScript.HAN) { return true; } return false; } public static boolean isPunctuation(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c); if ( // punctuation, spacing, and formatting characters ub == Character.UnicodeBlock.GENERAL_PUNCTUATION // symbols and punctuation in the unified Chinese, Japanese and Korean script || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION // fullwidth character or a halfwidth character || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS // vertical glyph variants for east Asian compatibility || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS // vertical punctuation for compatibility characters with the Chinese Standard GB 18030 || ub == Character.UnicodeBlock.VERTICAL_FORMS // ascii || ub == Character.UnicodeBlock.BASIC_LATIN ) { return true; } else { return false; } } private static Boolean isUserDefined(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c); if (ub == Character.UnicodeBlock.NUMBER_FORMS || ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS || ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS || c == '\ufeff' || c == '\u00a0' ) return true; return false; } public static Boolean isMessy(String str) { float chlength = 0; float count = 0; for(int i = 0; i < str.length(); i++) { char c = str.charAt(i); if(isPunctuation(c) || isUserDefined(c)) continue; else { if(!isChinese(c)) { count = count + 1; } chlength ++; } } float result = count / chlength; if(result > 0.3) return true; return false; } }
為了得到更為完整的可接受的字元表,定義isUserDefined方法(具體字元表與日誌中的字元有關係);加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols這三個block,以及\u00a0(Non-breaking space)字元與\ufeff(ZERO WIDTH NO-BREAK SPACE)字元。
原文地址:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31559985/viewspace-2678919/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- java web 中文亂碼JavaWeb
- java,awt,中文方框,中文亂碼10/16Java
- java httpclient傳送中文亂碼JavaHTTPclient
- Java GBK 中文亂碼問題分析Java
- 偽元素 content 出現中文亂碼
- 125 列舉實現PHP擷取中文不亂碼的實現方法PHP
- java實現瀏覽器下載附件時檔名中文亂碼解決方案Java瀏覽器
- Java Web開發中文亂碼問題JavaWeb
- plsql中文亂碼SQL
- gitk中文亂碼Git
- hive 中文亂碼Hive
- java中listFiles(Filefilter filter)檔案過濾器的實現過程JavaFilter過濾器
- 使用Filter介面編寫過濾器解決post亂碼Filter過濾器
- Unicode編碼和中文互轉(JAVA實現)UnicodeJava
- C# 解決httplistener querystring 中文亂碼、返回json中文格式亂碼C#HTTPJSON
- mysql過濾複製的實現MySql
- PHP實現布隆過濾器PHP過濾器
- LoadRunner中文出現亂碼的解決辦法
- wiki---Confluence預覽中文附件出現亂碼
- MySQL解決中文亂碼MySql
- vscode中文亂碼問題VSCode
- JD-GUI中文亂碼GUI
- SpringMVC中文亂碼踩坑SpringMVC
- Get提交方式中文亂碼
- idea控制檯中文亂碼Idea
- EasyUI 中文亂碼問題UI
- vim 開啟中文亂碼
- 教你如何實現Python 過濾敏感詞Python
- matplotlib 圖示 中文亂碼, 與 wordcloud 詞雲圖 中文亂碼 解決方法Cloud
- 專案打包釋出到tomcat中,中文出現亂碼Tomcat
- java反編譯luyten使用,以及中文亂碼,如何解決Java編譯
- 用 codeium外掛 提示中文 則 中文亂碼
- VSCode 輸出欄中文亂碼VSCode
- Xftp中文亂碼如何解決FTP
- lumen/laravel 生成pdf中文亂碼Laravel
- ROS中解決中文亂碼ROS
- excel開啟csv中文亂碼Excel
- 解決中文亂碼問題