C++ 過濾出字串的中文（GBK，UTF-8）

夢涵的帥爸爸發表於2019-07-27

原文網址 : https://www.cnblogs.com/kpxy/p/11256791.html

最近在處理遊戲敏感詞之類的東西，為了加強遮蔽處理，所以需要過濾掉字串中的除漢字之外的是其他東西如數字，符號，英文字母等。

首先我查閱資料並寫了個函式：

示例：返回輸入字串中漢字的個數：

std::string StrWithOutSymbol(const std::string &source)
{    
    string sourceWithOutSymbol;

    int i = 0;
    while (source[i] != 0)
    {
        if (source[i] & 0x80 )
        {
            sourceWithOutSymbol += source[i];
            sourceWithOutSymbol += source[i + 1];
            i += 2;
        else
        {
            i ++;
        }
    }
    return

 　　sourceWithOutSymbol; 
}

這個函式的原理是ord($str)&0x80來判斷漢字

80對應的二進位制程式碼為1000 0000,最高位為一,代表漢字漢字編碼格式通稱為10格式一個漢字佔2位元組,但只代表一個字元

"Windows中，中文簡體字符集的編碼是同時用1個位元組和2個位元組來表示的。當高位是0x00～0x7f時，為一個位元組，高位為0x80以上時用2個位元組表示"

當你發現一個位元組的內容大於0x7f,那它肯定是個(跟另外一個位元組拼湊成一個)漢字,如何判斷肯定大於0x7f呢?
0x7f(1111111)後面一個數就是0x80(10000000),所以想要大於0x7f，這個位元組的最高位都肯定是1,我們只需要判斷這個最高位是否為1就行了。

判斷方法:
位與(相同的位都是1的才為1，否則為0):
如:要判斷一個數的第三位是否是1，只要跟4(100)位與,判斷一個數的第2位是否為1就跟2(10)位與.
同理判斷第八位是否為1只要跟(10000000)也就是0x80位與了.

這裡為什麼不用>0x7f？php可能還行，但在其他強型別語言裡面，1個位元組的最高位用來標示負數，一個負數肯定不可能大於0x7f(最大的整數)

再舉個例子:
a的assic碼是97(1100001)
A的assic碼是65(1000001)

b的assic碼是98(1100010)
B的assic碼是66(1000010)

發現一個規律:一個a-z的字母,只要是小寫字母，第六位肯定是1，我們可以用這個來判斷大小寫:
這時候只要跟用以個字母跟0x20(100000)來位與判斷:
if(ord($a)&0x20){
//大寫
}

如何把所有字母改成大寫?第六位的1改成0就行了:
$a='a';
$a = chr(ord($a)&(~0x20));
echo $a;

然後我信心滿滿的吧這個函式加入到專案中去，點選執行，輸入中文進行檢查，當！專案報錯了？？？？陣列越界？？？？

這是為什麼，我又定位到報錯的地方，發現我使用的cocos-lua，在向c++傳遞字串的時候傳進來的字串是以UTF-8來進行編碼的，我又去找UIF-8的編碼規則發現

UTF-8編碼規則：如果只有一個位元組則其最高二進位制位為0；如果是多位元組，其第一個位元組從最高位開始，連續的二進位制位值為1的個數決定了其編碼的位元組數，其餘各位元組均以10開頭。UTF-8轉換表表示如下：

而我之前的是按照GBK編碼進行操作的，GBK每個中文字元只佔兩個位元組，而utf-8的話中文可能佔3個位元組，四個位元組，甚至是五個六個，所以用剛才那樣的函式就會有越界的情況發生，所以對用UTF-8進行編碼的字串，就需要進行另外的處理，所以我寫了一個新函式：

對UTF-8編碼的字串進行中文篩選的函式：

std::string censorStrWithOutSymbol(const std::string &source)
{    
    string sourceWithOutSymbol;

    int i = 0;
    while (source[i] != 0)
    {
        if (source[i] & 0x80 && source[i] & 0x40 && source[i] & 0x20)
        {
            int byteCount = 0;
            if (source[i] & 0x10)
            {
                byteCount = 4;
            }
            else
            {
                byteCount = 3;
            }
            for (int a = 0; a < byteCount; a++)
            {
                sourceWithOutSymbol += source[i];
                i++;
            }
        }
        else if (source[i] & 0x80 && source[i] & 0x40)
        {
            i += 2;
        }
        else
        {
            i += 1;
        }
    }
    return sourceWithOutSymbol;
}

點選執行，成功了！舒服。

PHP中文GBK編碼轉UTF-8
2019-02-16
PHP
「說技術」 PHP如何從字串中過濾出中文
2020-10-16
PHP字串
utf-8和gbk
2021-01-02
c++中utf8字串和gbk字串的轉換
2024-09-16
C++字串
Unicode、GBK、UTF-8、ASCII的編碼簡介
2020-04-06
UnicodeASCII
JavaScript過濾特殊字串
2018-07-11
JavaScript字串
java中文字串漢字轉GBK編碼
2020-12-15
Java字串
5、中文的輸出（GBK不可對映字元的解決方案）
2020-12-02
字元
SqlServer中將字串轉utf-8的函式、支援中文的UrlEncode函式
2022-07-09
SQLServer字串函式
utf-8的中文漢字
2018-11-15
Java實現過濾中文亂碼
2020-03-06
Java
Java GBK 中文亂碼問題分析
2021-09-09
Java
字串（暱稱）過濾特殊符號和表情（通用）
2020-12-05
字串符號
JAVA中GBK格式檔案和UTF-8格式檔案互相轉換
2020-08-21
Java
win10系統怎麼將字符集從gbk改為utf-8
2019-07-10
Win10
4、過濾器的使用及自定義過濾器
2024-03-21
過濾器
過濾
2024-07-30
解釋下你對GBK和UTF-8的理解？並說說頁面上產生亂碼的可能原因
2024-11-21
誠翔濾器光刻膠過濾器濾芯：保障光刻過程的高效與安全
2023-04-12
過濾器
c++ 分割字串
2024-05-27
C++字串
過濾器
2024-03-07
過濾器
filter過濾
2020-10-20
Filter
過濾Filtering
2020-10-28
Filter
Filterpost請求中文字元編碼的過濾器 --學習筆記
2021-09-09
Filter字元過濾器筆記
Filter過濾器的使用
2021-09-22
Filter過濾器
JSONObject的過濾設定
2020-12-17
JSONObject
Spring Cloud Gateway中的過濾器工廠：重試過濾器
2018-04-25
SpringCloudGateway過濾器
Django（67）drf搜尋過濾和排序過濾
2021-06-21
Django排序
如何快速過濾出一次請求的所有日誌？
2021-11-24
13.gateway中的過濾器的介紹以及自定義過濾器
2020-12-05
Gateway過濾器
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
中文轉換成html中的utf-8的方法例項程式碼
2020-05-20
HTML
vue 透過過濾器格式化時間ios出現NaN的問題
2021-09-09
Vue過濾器iOSNaN
SpamSieve for mac(郵件過濾工具) v3.0.3中文版
2023-12-28
Mac
c++ vector容器、字串
2024-10-02
C++字串
C++陣列字串
2024-07-13
C++陣列字串
C++：字串總結
2020-12-26
C++字串
CAN過濾器
2018-06-23
過濾器

C++ 過濾出字串的中文（GBK，UTF-8）

這個函式的原理是ord($str)&0x80來判斷漢字

UTF-8編碼規則：如果只有一個位元組則其最高二進位制位為0；如果是多位元組，其第一個位元組從最高位開始，連續的二進位制位值為1的個數決定了其編碼的位元組數，其餘各位元組均以10開頭。UTF-8轉換表表示如下：

相關文章