C#移除字串中的不可見Unicode字元

程式設計實驗室發表於2023-02-02

原文網址 : https://www.cnblogs.com/deali/p/17085516.html

背景

最近發現某個資料採集的系統拿下來的資料，有些欄位的JSON被莫名截斷了，導致後續資料分析的時候解析JSON失敗。

類似這樣

{"title": "你好

或者這樣，多了個雙引號啥的

{"title":""你好"}

因為資料庫是Oracle，起初以為是Oracle這老古董出問題了，結果一番折騰，把每條寫入資料的SQL語句都拿出來，看起來裡面的JSON格式都沒問題。

這也太詭異了吧，看起來沒毛病，但就為啥JSON被隨機截斷呢？

最後我試著把整段SQL放在Rider的 query console 裡面執行，然後再去資料庫裡讀取這段JSON，居然發現變成這樣了：

{"title":"？你好"}

啊這，看到這個大大的問號，立刻就能知道這個“你好”裡面不止是這兩個字，肯定含有不可見的Unicode字元。

然後把這段JSON複製出來，用16進位制模式開啟，果然看到在“你好”前面有一個 \u0020 的字元…

Unicode碼錶

0000-007F：C0控制符及基本拉丁文 (C0 Control and Basic Latin)
0080-00FF：C1控制符及拉丁文補充-1 (C1 Control and Latin 1 Supplement)
0100-017F：拉丁文擴充套件-A (Latin Extended-A)
0180-024F：拉丁文擴充套件-B (Latin Extended-B)
0250-02AF：國際音標擴充套件 (IPA Extensions)
02B0-02FF：空白修飾字母 (Spacing Modifiers)
……

這裡再附上部分 Unicode 表格

U+	0	1	2	3	4	5	6	7	8	9	A	B	C	D	E	F
0000	NUL	SOH	STX	ETX	EOT	ENQ	ACK	BEL	BS	HT	LF	VT	FF	CR	SO	SI
0010	DLE	DC1	DC2	DC3	DC4	NAK	SYN	ETB	CAN	EM	SUB	ESC	FS	GS	RS	US
0020		!	"	#	$	%	&	'	(	)	*	+	,	-	.	/
0030	0	1	2	3	4	5	6	7	8	9	:	;	<	=	>	?
0040	@	A	B	C	D	E	F	G	H	I	J	K	L	M	N	O
0050	P	Q	R	S	T	U	V	W	X	Y	Z	[	\	]	^	_
0060	`	a	b	c	d	e	f	g	h	i	j	k	l	m	n	o

可以看到上面那個 \u0020 在第三行第一列，是一個不可見字元，躲在標題的前面

也就是因為這個 Unicode 字元，Oracle無法正確解析，所以導致了插入資料的時候錯亂了

所以破案了，就是系統前臺使用人員，在輸入的時候不知道咋滴搞了個Unicode字元進去…

解決方法就是我這邊採集的時候再做一次過濾…

沒想到C#要搞個過濾 Unicode 還挺折騰的，資料太少…

最後還是參考了Java的資料搞的。= =...

程式碼

程式碼如下

寫了個擴充套件方法來過濾

public static class StringExt { 
    // 控制字元
    private static readonly Regex ControlCharRegex = new Regex(@"[\p{C}]", RegexOptions.Compiled);

    /// <summary>
    /// 移除控制字元
    /// </summary>
    public static string RemoveControlChars(this string text) {
        return ControlCharRegex.Replace(text, string.Empty);
    }
}

要使用的時候就這樣

var outStr = "帶有Unicode的字串".RemoveControlChars();

搞定。

參考資料

UniCode編碼表及部分不可見字元過濾方案 - https://www.cnblogs.com/fan-yuan/p/8176886.html
https://stackoverflow.com/questions/6198986/how-can-i-replace-non-printable-unicode-characters-in-java

JavaScript 字元 Unicode 表示法
2020-04-14
JavaScript字元Unicode
[C#]C#中字串的操作
2018-06-23
C#字串
javascript解析unicode字元，替換成正常字元
2024-03-25
JavaScriptUnicode字元
JavaScript獲取給定字元的unicode
2018-10-20
JavaScript字元Unicode
C#刪除字串最後一個字元
2018-12-10
C#字串字元
JavaScript刪除字串中的指定字元
2018-05-15
JavaScript字串字元
shell 給字串增加單引號，並移除字串中多餘的空格
2024-03-11
字串
中文字串轉 unicode 編碼的字串
2019-02-25
字串Unicode
C#快速入門教程（11）—— 字元和字串型別
2018-09-21
C#字元字串型別
字串和字元的操作
2024-10-19
字串字元
JavaScript刪除字串中重複字元
2018-03-07
JavaScript字串字元
獲取字串中重複次數最多的字元
2018-05-20
字串字元
Java 如何獲取字元所對應的UniCode編碼
2019-04-15
Java字元Unicode
Julia 內建的數學常量與 Unicode 字元輸入
2018-08-14
Unicode字元
求出現在字串1而沒有出現在字串2中的字元
2018-08-20
字串字元
輸入一段字串，去除字串中重複的字元，並輸出
2020-12-16
字串字元
徹底弄懂UTF-8、Unicode、寬字元、locale
2019-07-08
Unicode字元
字元編碼：Unicode & UTF-16 & UTF-8
2023-01-01
字元Unicode
2.刪除字串中的某個字元。(藉助字元陣列實現)
2020-10-12
字串字元陣列
字串-字元編碼
2019-03-17
字串字元
Python中查詢字串某個字元最常用的方法！
2024-01-11
Python字串字元
c++中字元、字串和數字間的轉換
2020-11-14
C++字元字串
求字串中不含重複字元的最長子串
2020-04-05
字串字元
C# 讀取 ttf字型檔案裡的 Unicode
2020-09-12
C#Unicode
Oracle資料庫中的不可見索引 invisible index
2022-10-28
Oracle資料庫索引Index
PHP 判斷一個字元是否在字串中
2019-04-15
PHP字元字串
獲得String字串中某個字元出現的次數
2020-11-16
字串字元
前端 JavaScript 獲取字串中重複次數最多的字元
2021-06-25
前端JavaScript字串字元
深入理解蘋果系統（Unicode）字串的排序方法
2018-11-20
蘋果Unicode字串排序
字串-刪除指定字元
2019-03-18
字串字元
字串-字元統計2
2019-03-18
字串字元
字串-字元統計1
2019-03-18
字串字元
字元陣列與字串
2024-06-13
字元陣列字串
python+selenium 自動化過程中遇到的元素不可見時間以及webelement不可見的處理方法...
2020-04-04
PythonWeb
OpenJudge 帶萬用字元的字串匹配
2018-09-10
字元字串匹配
正則匹配指定字元之前的字串
2018-05-07
字元字串
python如何刪除字串的特殊字元
2021-09-11
Python字串字元
Python如何刪除字串中多餘空白字元?
2023-12-14
Python字串字元

C#移除字串中的不可見Unicode字元

背景

Unicode碼錶

程式碼

參考資料

相關文章