Java實現過濾中文亂碼

安全劍客發表於2020-03-06

原文網址 : http://blog.itpub.net/31559985/viewspace-2678919/

最近在日誌資料清洗時遇到中文亂碼，如果只要有非中文字元就將該字串過濾掉，這種方法雖簡單但並不可取，因為比如像Xperia™主題、天天四川Ⅱ這樣的字串也會被過濾掉。

Java實現過濾中文亂碼Java實現過濾中文亂碼

1. Unicode編碼

Unicode編碼是一種涵蓋了世界上所有語言、標點等字元的編碼方式，簡單一點說，就是一種通用的世界碼；其編碼範圍：U+0000 .. U+10FFFF。按Unicode硬編碼的區間進行劃分，Unicode編碼被分成若干個block ( Unicode block)；每一個Unicode編碼專屬於唯一的Unicode block，Unicode block之間互不重疊。從碼字的本身的屬性出發，Unicode編碼被分成了若干script ( Unicode script)；比如，與中文相關的字元、標點的scriptHan包括block如下：

CJK Radicals Supplement
Kangxi Radicals
CJK Symbols and Punctuation中的15個字元
CJK Unified Ideographs Extension A
CJK Unified Ideographs
CJK Compatibility Ideographs
CJK Unified Ideographs Extension B
CJK Unified Ideographs Extension C
CJK Unified Ideographs Extension D
CJK Unified Ideographs Extension E
CJK Compatibility Ideographs Supplement

其中，常見的中文字元在CJK Unified Ideographs block；此外，考慮繁體字及不常見字等，CJK還有A、B、C、D、E五個extension。Basic Latin block完整地包含了ASCII碼的控制字元、標點字元與英文字母字元。

2. Java的字元編碼

JDK完整實現Unicode的block與script：

Char c = '☎'
Character.UnicodeBlock ub = Character.UnicodeBlock.of(c)
Character.UnicodeScript uc = Character.UnicodeScript.of(c);

Java中的字元char內建的編碼方式是UTF-16，當char強轉成int型別時，其返回值是unicode編碼值，只有當getbyte時才返回的是utf-8編碼的byte：

String s = "\u00a0";
String.format("\\u%04x", (int) s.charAt(0)) // --> \u00a0
import org.apache.commons.codec.binary.Hex;
Hex.encodeHex(s.getBytes()) // --> c2a0

UTF-8是Unicode字元的變長字首編碼的一種實現，二者之間的對應關係在這裡.現在我們回到開篇過濾中文亂碼的問題，有一個基本解決思路：

去掉各種標點字元、控制字元，
計算剩下字元中非中文字元所佔的比例，如果超過閾值，則認為該字串為亂碼串

完整程式碼如下：

public class ChineseUtill {
     
    private static boolean isChinese(char c) {
        Character.UnicodeScript sc = Character.UnicodeScript.of(c);
        if (sc == Character.UnicodeScript.HAN) {
            return true;
        }
        return false;
    }
    
    public static boolean isPunctuation(char c) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
        if (    // punctuation, spacing, and formatting characters
                ub == Character.UnicodeBlock.GENERAL_PUNCTUATION
                // symbols and punctuation in the unified Chinese, Japanese and Korean script
                || ub == Character.UnicodeBlock.CJK_SYMBOLS_AND_PUNCTUATION
                // fullwidth character or a halfwidth character
                || ub == Character.UnicodeBlock.HALFWIDTH_AND_FULLWIDTH_FORMS
                // vertical glyph variants for east Asian compatibility
                || ub == Character.UnicodeBlock.CJK_COMPATIBILITY_FORMS
                // vertical punctuation for compatibility characters with the Chinese Standard GB 18030
                || ub == Character.UnicodeBlock.VERTICAL_FORMS
                // ascii
                || ub == Character.UnicodeBlock.BASIC_LATIN
                ) {
            return true;
        } else {
            return false;
        }
    }
    
    private static Boolean isUserDefined(char c) {
        Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
        if (ub == Character.UnicodeBlock.NUMBER_FORMS
                || ub == Character.UnicodeBlock.ENCLOSED_ALPHANUMERICS
                || ub == Character.UnicodeBlock.LETTERLIKE_SYMBOLS
                || c == '\ufeff'
                || c == '\u00a0'
                )
            return true;
        return false;
    }
    
    public static Boolean isMessy(String str)  {
        float chlength = 0;
        float count = 0;
        for(int i = 0; i < str.length(); i++) {
            char c = str.charAt(i);
            if(isPunctuation(c) || isUserDefined(c))
                continue;
            else {
                if(!isChinese(c)) {
                    count = count + 1;
                }
                chlength ++;
            }
        }
        float result = count / chlength;
        if(result > 0.3)
            return true;
        return false;
    }
    
}

為了得到更為完整的可接受的字元表，定義isUserDefined方法（具體字元表與日誌中的字元有關係）；加上了Number Forms、Enclosed Alphanumerics、Letterlike Symbols這三個block，以及\u00a0（Non-breaking space）字元與\ufeff（ZERO WIDTH NO-BREAK SPACE）字元。

原文地址： https://www.linuxprobe.com/java-implementation-chinese.html

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31559985/viewspace-2678919/，如需轉載，請註明出處，否則將追究法律責任。

java web 中文亂碼
2020-04-04
JavaWeb
java,awt,中文方框,中文亂碼10/16
2024-10-16
Java
java httpclient傳送中文亂碼
2024-08-07
JavaHTTPclient
Java GBK 中文亂碼問題分析
2021-09-09
Java
偽元素 content 出現中文亂碼
2022-07-07
125 列舉實現PHP擷取中文不亂碼的實現方法
2018-09-04
PHP
java實現瀏覽器下載附件時檔名中文亂碼解決方案
2024-03-08
Java瀏覽器
Java Web開發中文亂碼問題
2018-07-10
JavaWeb
gitk中文亂碼
2024-05-09
Git
hive 中文亂碼
2019-05-11
Hive
plsql中文亂碼
2024-11-19
SQL
java中listFiles(Filefilter filter)檔案過濾器的實現過程
2020-12-16
JavaFilter過濾器
使用Filter介面編寫過濾器解決post亂碼
2024-07-03
Filter過濾器
Unicode編碼和中文互轉（JAVA實現）
2019-01-21
UnicodeJava
mysql過濾複製的實現
2021-09-11
MySql
PHP實現布隆過濾器
2020-12-01
PHP過濾器
C# 解決httplistener querystring 中文亂碼、返回json中文格式亂碼
2021-04-27
C#HTTPJSON
wiki---Confluence預覽中文附件出現亂碼
2018-05-03
LoadRunner中文出現亂碼的解決辦法
2019-08-23
vim 開啟中文亂碼
2019-02-15
Get提交方式中文亂碼
2020-10-17
vscode中文亂碼問題
2024-09-29
VSCode
MySQL解決中文亂碼
2024-11-20
MySql
JD-GUI中文亂碼
2021-11-23
GUI
SpringMVC中文亂碼踩坑
2021-08-01
SpringMVC
EasyUI 中文亂碼問題
2020-12-30
UI
idea控制檯中文亂碼
2021-01-03
Idea
教你如何實現Python 過濾敏感詞
2021-09-16
Python
matplotlib 圖示中文亂碼，與 wordcloud 詞雲圖中文亂碼解決方法
2024-06-25
Cloud
專案打包釋出到tomcat中，中文出現亂碼
2019-03-06
Tomcat
java反編譯luyten使用，以及中文亂碼，如何解決
2024-06-01
Java編譯
用 codeium外掛提示中文則中文亂碼
2024-06-26
excel開啟csv中文亂碼
2024-05-21
Excel
解決中文亂碼問題
2024-05-14
ROS中解決中文亂碼
2024-04-21
ROS
Jmeter 切換中文亂碼，求解
2020-06-24
JMeter
lumen/laravel 生成pdf中文亂碼
2024-09-09
Laravel
Xftp中文亂碼如何解決
2024-11-02
FTP

Java實現過濾中文亂碼

相關文章