【C# 程式碼小知識】畫蛇添足的編碼字首

丹楓無跡發表於2020-02-10

原文網址 : https://juejin.im/post/5e40c22df265da570829da5d

我們都知道，檔案有不同的編碼，例如我們常用的中文編碼有：UTF8、GK2312 等。

Windows 作業系統中，新建的檔案會在起始部分加入幾個字元的字首，來識別編碼。

例如，新建文字檔案，寫入單詞 Hello，另存為 UTF8。Hello 佔 5 個位元組，但文字大小卻是 8 個位元組。（win7 系統下還是這樣的，win10 已經去掉了編碼字首，所以 win10 下檔案大小依然是 5 個位元組。看來微軟自己也改變了。）

我們用 StreamWriter 來生成檔案。

using (StreamWriter sw = new StreamWriter("a.txt"))
{
    sw.Write("Hello");  // 5 位元組
}

using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))
{
    sw.Write("Hello");  // 8 位元組
}
複製程式碼

詭異的事情發生了，StreamWriter 的預設編碼是 UTF8，都是用的 UTF8 編碼，怎麼檔案的大小會不一樣呢？

UTF8Encoding 有兩個私有屬性：emitUTF8Identifier 和 isThrowException，初始化時由建構函式傳入。

emitUTF8Identifier 表示是否新增編碼字首
isThrowException 表示遇到編碼錯誤時是否報錯

由此可見，是否新增編碼字首，是可以控制的。

Encoding 中 UTF8 定義如下，新增編碼字首。

public static Encoding UTF8 {
    get {
        if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);
        return utf8Encoding;
    }
}
複製程式碼

而 StreamWriter 中使用的預設編碼，emitUTF8Identifier=false：

internal static Encoding UTF8NoBOM {
    get { 
        if (_UTF8NoBOM == null) {
            UTF8Encoding noBOM = new UTF8Encoding(false, true);
            _UTF8NoBOM = noBOM;
        }
        return _UTF8NoBOM;
    }
}
複製程式碼

這就是開頭的程式碼中兩個檔案大小不一樣的原因了。

python自學，小知識程式碼，能飛天的小程式碼
2019-01-03
Python
使用C語言編寫貪食蛇程式原始碼
2018-07-16
C語言原始碼
急速入門前端編碼知識
2019-03-05
前端
Base64編碼知識詳解
2022-06-14
學習電腦編碼utf-8,ansi編碼的基礎知識等
2018-09-25
前端開發中需要搞懂的字元編碼知識
2022-04-29
前端字元
用寫程式碼的方式來整理知識
2021-12-07
模型程式碼理解本地知識庫
2024-04-08
模型
如何編寫高質量的C#程式碼（一）
2020-09-07
C#
OpenGL實現貪吃蛇程式碼
2020-12-25
改進c#程式碼的5個常用的小技巧
2021-01-05
C#
常用程式碼模板4——數學知識
2024-11-18
git 知識之首次提交程式碼配置
2020-12-07
Git
編寫高效能C#程式碼 —— Span<T>
2023-11-07
C#
沒有基礎小編帶你，用python畫機器貓（有程式碼）
2018-12-30
Python
識別英文數字驗證碼的程式（C# 示例）
2024-11-30
C#
C#程式碼識別符號命名規範
2018-12-01
C#符號
100行Python程式碼實現貪吃蛇小遊戲（超詳細）
2021-05-20
Python遊戲
【python系統學習16】編碼基礎知識
2020-05-30
Python
Base64 編碼知識，一文打盡！
2022-05-26
java中的介面一些知識點———— 程式碼
2020-10-26
Java
Java基礎知識整理之程式碼塊
2019-01-19
Java
二維碼知識
2018-07-16
微信小程式：小程式碼、小程式二維碼、普通二維碼
2018-04-27
微信小程式
【小知識】程式碼優化-動態新增大量擴充套件欄位
2022-01-31
優化套件
簡單小結密碼學入門知識點
2019-07-11
密碼學
storm 初識編碼
2018-09-16
ORM
彙編必知小知識點及常用debug命令
2020-10-20
作為一個程式設計師，告訴你一些編碼知識
2020-04-10
程式設計師
JS、C#中URL編碼解碼問題
2024-08-19
JSC#
帶你瞭解 Unicode和UTF-8編碼知識
2020-11-16
Unicode
微信小程式掃碼解析小程式碼
2020-08-13
微信小程式
GO程式碼生成程式碼小思小試
2019-07-05
Go
【資料結構】棧的基礎知識（無程式碼）
2018-05-04
資料結構
【資料結構】串的基礎知識（無程式碼）
2018-05-05
資料結構
Python程式碼註釋的一些基礎知識
2019-06-21
Python
shell指令碼的基礎知識
2020-12-23
指令碼
通過TCP碼流識別編碼
2020-04-06
TCP

【C# 程式碼小知識】畫蛇添足的編碼字首

相關文章