iOS文字檔案的編碼檢測

scorpiozj發表於2013-11-16

windows上很多文字未必是用UTF8,所以在iOS上讀取的時候，如何得到檔案的編碼是個問題。網上有很多讀取中文的例子，但是那些不夠通用。比如說要讀取日文，韓文，阿拉伯文等等的時候，就不行了（雖然一般的app不一定會有這樣的需求）。

NSString自己帶一個函式：

+ (instancetype)stringWithContentsOfURL:(NSURL *)url usedEncoding:(NSStringEncoding *)enc error:(NSError **)error;

如果String建立成功，enc會返回使用的NSStringEncoding。但是這個方法對於NSStringEncoding以外的編碼都不一定能成功建立NSString，同時也不會返回error。
Apple 的官方文件提供了讀取未知encoding資料的一些參考步驟：

簡單的總結，就是不停的用encoding去測試。這其中有個小技巧，根據程式面向的使用者，把用到的encoding按可能性排列下，這樣最有希望獲得需要的結果。
雖然Apple的文件給出了這樣的解決方案，但是發現很多閱讀App讀取各種編碼方式的檔案，毫無壓力。因此，這裡一定有其他方法。問了某道友，說chardet可以，可是一搜，發現是python實現！雖然沒結果，不過我發現這是個非常普遍的問題。於是，再次搜尋查詢，找到了BOM，找到了mozzilla charset detector，找到了uchardet。uchardet的原始碼在github上。他的基本原理好像也是用編碼去檢測，誰先返回，就確認是哪個編碼（這裡不確定，未深究）。

專案是C/C++實現，直接新增進iOS工程，記得修改使用到的檔案字尾為mm，執行後測試，發現能很好的識別我遇到的幾種編碼檔案。專案中有使用的例子，就不貼圖說明使用過程了。

需要說明的是，對於需要使用kCFStringEncodingGB_18030_2000來建立的中文文字，識別出來的居然是IBM855。 google了下，也不知道IBM855是啥意思。為了趕時間，暫時對需要的幾種編碼做了對映。

如果有哪位知道的，麻煩指點指點，這裡先謝過了。

本文已同步到： http://icocoa.tk/2013/11/16/ios文字檔案的編碼檢測/，歡迎訪問

檢測檔案編碼，轉換檔案編碼
2022-05-24
文字檔案的編碼格式
2022-09-01
C#自動檢測檔案的編碼
2024-11-14
C#
Linux下檢視檔案編碼,檔案編碼格式轉換和檔名編碼
2010-10-27
Linux
java 猜測檔案編碼
2020-12-03
Java
iOS UITextField實時監測編輯的文字
2017-11-06
iOSUI
文字編碼轉換工具iconv 附批量轉換檔案編碼命令
2017-04-05
小說軟體開發，java獲取文字檔案的編碼格式
2021-12-02
Java
Python編解碼問題與文字檔案處理
2021-06-19
Python
忽略檢測png檔案
2017-04-24
檢測檔案到末尾
2017-07-14
批量修改檔案的編碼
2016-03-09
樹莓派：文字編輯器與檔案
2020-03-27
樹莓派
如何修改檔案的編碼格式
2017-07-06
javascript檢測上傳檔案的格式和大小例項程式碼
2017-03-15
JavaScript
前端檔案編碼方式
2019-01-05
前端
VBA建立文字檔案、讀寫文字檔案
2020-04-04
iOS 富文字的應用(圖片與文字混編)
2018-01-23
iOS
黑客攻防應用：利用密碼檔案檢測攻擊
2017-10-18
黑客密碼
js檢測上傳檔案型別程式碼例項
2017-04-06
JS型別
檔案包含漏洞檢測工具fimap
2017-08-04
Huffman對檔案編碼和解碼
2014-11-24
typora編寫md檔案文字設定顏色
2020-10-13
Chardet: 通用字元編碼檢測器
2024-05-21
字元
檔案上傳漏洞防範-檔案型別檢測
2024-05-01
型別
如何編譯執行一個文字檔案裡面的一段程式碼？
2003-05-03
編譯
Huffman編碼m檔案分析
2008-05-13
iconv更改檔案編碼
2013-04-09
關閉單個檔案eslint的檢測
2020-11-11
EsLint
檢測真實的檔案型別函式
2009-02-23
型別函式
讓你在macOS上快速檢視txt文字檔案
2020-12-08
Mac
使用MD5的檢測方法，shell指令碼實現linux系統檔案完整性檢測
2018-01-10
指令碼Linux
PDF文字怎麼編輯？怎麼編輯PDF檔案內容
2019-08-29
檢視編譯C程式中間檔案
2011-10-10
編譯C程式
java安全編碼指南之:鎖的雙重檢測
2020-10-14
Java
根據編輯後的init.ora文字檔案內容重新生成spfile檔案
2007-12-08
C#讀取文字檔案和寫文字檔案
2018-05-24
C#
檔案上傳——客戶端檢測繞過(JavaScript檢測）(一）
2020-04-18
客戶端JavaScript

iOS文字檔案的編碼檢測

相關文章