MySQL 5.7 版本的 UTF8 字符集調研

MarsZuo發表於2022-01-18

原文網址 : https://www.cnblogs.com/marszuo/p/15820349.html

一、故事背景

記一次 sql_mode 非嚴格模式下的業務事故排查。當時資料庫沒有開啟 sql_mode 為嚴格模式，並且資料表的編碼是 utf8，表現為業務側的 Insert SQL 語句執行成功，但是，
查詢表記錄的時候，發現欄位的資料值缺失。示例：寫入一條有特殊字元 ? 的記錄，記錄裡面欄位值在 ? 之後的字元都丟失了。

下面是，開啟了嚴格模式：

問題原因定位到後，解決方案是，在不對資料庫做任何配置調整的前提下，業務邏輯中增加對特殊字元的檢測，過濾掉資料庫不支援的特殊字元，從而杜絕寫入資料表後出現資料缺失的事故。

那麼，哪些字元是 MySQL 不支援的嘞？由此引出本文的探討主題。

二、認識 MySQL UTF8 字符集

我們帶著兩個問題，去調研 MySQL 5.7 版本 UTF8 字符集。

2.1. MySQL 不支援的特殊字元有哪些？

PS: 這裡貼的 MySQL 官方文件也是 5.7。

從文件提取下關鍵資訊：

在 MySQL 中 utf8 是 utf8mb3 的別名
utf8mb3 編碼的每個字元最多三個位元組

示例：特殊字元 ? 特殊字元：

可以觀察到這個字元，需要使用四個位元組編碼，因此這個字元不能被資料庫 utf8mb3 編碼支援。

說點題外話，在 Java 中 String 是 UTF-16 格式的，當我們用滑鼠複製 ? 字元到一個雙引號中時，idea 編輯器，會自動轉換為這樣的格式：

那麼，MySQL 的 utf8mb3 不支援哪些字元？

繼續看 MySQL官方文件

可以看到，文件中已經給出了比較明確的描述：

僅支援 BMP 字元
一個字元的編碼最多三個位元組。

到這裡，你可能又會問是什麼 BMP 字元嘞，Wiki 百科看不懂啊！

在介紹這個問題之前，首先要了解一點基礎知識 Code point

大家應該都認識這張表，ASCLL 包含 128 個 Code point 表示 128 個字元（也就是 0 ~ 127）。

在標準的 Unicode 中容納了 1,114,112 code points，其中前 65,536 個 Code point （也就是 0 ~ 65535）稱為 Basic Multilingual Plane（縮寫：BMP）

檢視一個字元的 Code point 可以使用 charbase.com，示例，檢視大寫字母 A ：

判斷一個字元是否是 BMP
首先計算出字元的 Code point，然後檢查其範圍，如果在 0 ~ 65535 內，就是 BMP 字元。

2.2. MySQL UTF8 和標準 UTF-8 編碼是一個概念嗎？

通過上一個問題，我們瞭解到，MySQL 5.7 版本中 UTF8 是 utf8mb3 的別名，utf8mb3 是使用 1 ~ 3 個位元組對 Unicode 字元進行編碼，僅支援 BMP 字元。

在 Wiki 百科裡面對 UTF-8 的定義是：

簡言之：使用 1 ~ 4 個位元組對標準 Unicode 1,112,064 個有效的字元 Code point 進行編碼。

因此，這兩個 utf8 在不同的上下文背景下不是一個概念，很多開發人員包括我，經常在沒有對事物做詳細調研之前，憑藉主觀經驗對事物妄下結論。

三、程式語言最佳實踐

通過上面分析，我們知道問題的背景和原因。下面的給出最佳程式設計實踐，選取前/後端使用的兩門語言：

3.1. 在 Java 語言中檢測字串中的非 BMP 字元

public class Main {

    public static void main(String[] args) {
        String str = "?方程";
        boolean contain = isContainsNonBmpUnicodeCharacter(str);
        if (contain) {
            System.out.println("The string contains non-BMP Unicode character.");
        }
    }

    private static boolean isContainsNonBmpUnicodeCharacter(String str) {
        return str.length() != str.codePointCount(0, str.length());
    }
}

3.2.在 Javascript 中檢測字串中非 BMP 字元

function main() {
    let str = "?方程";
    let contains = isContainsNonBmpUnicodeCharacter(str);
    if (contains) {
        console.log("The string contains non-BMP Unicode character.");
    }
}

function isContainsNonBmpUnicodeCharacter(str) {
    return str.split(/[\uD800-\uDBFF][\uDC00-\uDFFF]/g).length != 1;
}

參考文獻

MySQL 不同版本預設字符集
2020-03-11
MySql
PHP study 升級預設的MYSQL版本為5.7
2018-11-26
PHPMySql
MYSQL 5.7 升級 8.0 後的由於字符集導致的大問題？
2023-02-24
MySql
更改Oracle字符集：把字符集ZHS16GBK換成UTF8
2018-06-27
Oracle
Oracle 字符集從GBK升級到Utf8
2020-04-04
Oracle
linux mysql5.7以上設定中文字符集不在/mysql/my.cnf下面了
2018-11-30
LinuxMySql
MySQL 5.6, 5.7, 8.0版本的新特性彙總大全
2019-07-16
MySql
mysql5.7及以後版本設定密碼
2024-10-14
MySql密碼
MySQL字符集
2022-10-22
MySql
Mysql5.7 windows免安裝版本初始化配置
2018-07-12
MySqlWindows
mysql 原始碼安裝-5.7-17-19版本
2018-08-29
MySql原始碼
MySQL 5.7的角色功能
2019-08-22
MySql
Oracle如何使用spool匯出utf8字符集的文字檔案
2019-03-25
Oracle
CentOS7.6 MySQL8環境搭建配置遠端登入字符集UTF8 簡單密碼
2019-01-04
CentOSMySql密碼
mysql調優---研發可以做什麼
2021-09-09
MySql
聊一聊MySQL的字符集
2022-01-24
MySql
mysql字符集說明
2020-04-07
MySql
Install MySQL 5.7 in the Docker
2019-07-03
MySqlDocker
Docker 部署 mysql 5.7
2024-11-26
DockerMySql
mysql 字符集造成的效能問題
2020-04-26
MySql
調研
2024-11-01
mysql字符集和字元排序
2018-07-21
MySql字元排序
MySQL監控-Datadog資料庫監控調研
2021-11-24
MySql資料庫
WebSocket的調研分析
2020-12-16
Web
MySQL檢視和修改字符集的方法
2019-07-24
MySql
MySQL 5.7 叢集搭建
2018-11-26
MySql
MySQL5.7 多例項
2018-05-25
MySql
mysql5.7MHA配置
2024-03-11
MySql
MySQL：5.6 升級 5.7
2023-05-08
MySql
mysql 5.7主從配置
2024-11-23
MySql
yum install mysql5.7
2024-07-21
MySql
MySQL 5.7 InnoDB Tablespace Encryption
2023-03-10
MySql
Docker 安裝 Mysql 5.7
2023-01-26
DockerMySql
Mysql 5.7 MHA 高可用
2022-08-23
MySql
MySQL 5.7定位消耗CPU高的SQL
2018-10-19
MySql
mysql5.7tar包的安裝
2018-08-14
MySql
[Mysql]Mysql5.7並行複製
2019-11-27
MySql並行
Graphql 調研
2020-04-05