利用js判斷檔案是否為utf-8編碼

tornoda發表於2021-06-02

原文網址 : https://www.cnblogs.com/looyulong/p/14842754.html

常規方案

使用FileReader以utf-8格式讀取檔案，根據檔案內容是否包含亂碼字元�，來判斷檔案是否為utf-8。

如果存在�，即檔案編碼非utf-8，反之為utf-8。

程式碼如下：

const isUtf8 = async (file: File) => {
  return await new Promise((resolve, reject) => {
    const reader = new FileReader();
    reader.readAsText(file);

    reader.onloadend = (e: any): void => {
      const content = e.target.result;
      const encodingRight = content.indexOf("") === -1;

      if (encodingRight) {
        resolve(encodingRight);
      } else {
        reject(new Error("編碼格式錯誤，請上傳 UTF-8 格式檔案"));
      }
    };
    
    reader.onerror = () => {
      reject(new Error("檔案內容讀取失敗，請檢查檔案是否損壞"));
    };
  });
};

該方法問題在於，如果檔案非常大，比如幾個G，瀏覽器讀到的內容直接放在記憶體中，fileReader例項會直接觸發onerror，丟擲錯誤，有時瀏覽器會直接崩潰。

大檔案方案

對於大檔案，可以對檔案內容進行抽樣，對檔案進行切片，這裡使用100片。對切出的每片檔案再切取前面1kb大小的片段，以string方式讀取。如果1024B可能正好切在某個漢字編碼的中間，導致以string方式讀取時出錯，即首尾可能出現�，被認為是非utf-8片段。這時可以取1kb對應字串的前半段，再去判斷�是否存在。

上述常數可以根據需求進行調整。

程式碼如下：

const getSamples = (file: File) => {
  const filesize = file.size;
  const parts: Blob[] = [];
  if (filesize < 50 * 1024 * 1024) {
    parts.push(file);
  } else {
    let total = 100;
    const sampleSize = 1024 * 1024;
    const chunkSize = Math.floor(filesize / total);
    let start = 0;
    let end = sampleSize;
    while (total > 1) {
      parts.push(file.slice(start, end));
      start += chunkSize;
      end += chunkSize;
      total--;
    }
  }
  return parts;
};

const isUtf8 = (filePart: Blob) => {
  return new Promise((resolve, reject) => {
    const fileReader = new FileReader();

    fileReader.readAsText(filePart);

    fileReader.onload = (e) => {
      const str = e.target?.result as string;
      // 大致取一半
      const sampleStr = str?.slice(4, 4 + str?.length / 2);
      if (sampleStr.indexOf("�") === -1) {
        resolve(void 0);
      } else {
        reject(new Error(編碼格式錯誤，請上傳 UTF-8 格式檔案"));
      }
    };

    fileReader.onerror = () => {
      reject(new Error(檔案內容讀取失敗，請檢查檔案是否損壞"));
    };
  });
};

export default async function (file: File) {
  const samples = getSamples(file);
  let res = true;

  for (const filePart of samples) {
    try {
      await isUtf8(filePart);
    } catch (error) {
      res = false;
      break;
    }
  }
  return res;
}

js判斷物件是否為空
2018-06-05
JS物件
js判斷字串是否為空
2021-09-11
JS字串
golang判斷檔案是否存在
2018-12-30
Golang
python 判斷檔案是否存在
2020-12-26
Python
PHP判斷檔案是否為圖片的方法
2020-12-26
PHP
php下利用curl判斷遠端檔案是否存在的實現程式碼
2021-01-19
PHP
JS判斷物件是否為空物件的方法
2022-05-19
JS物件
JS判斷檔案上傳格式
2019-05-11
JS
C語言判斷檔案是否存在，判斷檔案可讀可寫可執行
2018-09-15
C語言
jquery怎麼樣判斷檔案是否存在
2020-12-31
jQuery
js系列文章之 : 判斷 object 物件是否為空
2019-01-13
JSObject物件
js判斷checkbox是否選中
2018-09-05
JS
js根據字尾判斷檔案檔案型別的程式碼
2020-05-18
JS型別
Python判斷物件是否為檔案物件(file object)的三種方法
2018-10-15
Python物件Object
判斷字串是否為空
2018-10-17
字串
python 判斷是否為中文
2018-12-11
Python
python判斷是否為list
2021-09-11
Python
js判斷dom節點是否存在
2021-09-11
JS
js判斷兩個物件是否相等
2022-06-23
JS物件
直播軟體原始碼，利用uniapp checkbox判斷是否選中
2022-12-30
原始碼APP
JavaScript判斷字串是否為空
2018-07-16
JavaScript字串
java判斷物件是否為空
2024-06-25
Java物件
Delphi Variant 判斷是否為空
2024-07-25
mysql如何判斷是否為空
2021-09-11
MySql
java判斷字串是否為空
2020-11-27
Java字串
JS如何判斷一個陣列是否為空、是否含有某個值
2018-11-29
JS陣列
判斷一個數是否為質數（程式碼）
2024-07-03
js判斷輸入字串是否為空、空格、null總結
2018-12-30
JS字串Null
VBA判斷指定的資料夾或檔案是否存在
2020-04-05
帝國CMS利用PHP判斷當前頁面是否為首頁
2024-10-05
PHP
如何判斷 JavaScript 物件是否為空？
2023-12-25
JavaScript物件
C++判斷是否為閏年
2020-10-31
C++
判斷一個物件是否為空物件，判斷一個物件中是否有空值
2024-03-07
物件
Idea編碼UTF-8中.properties 配置檔案中文亂碼
2024-03-19
Idea
判斷是否有檔案並設定理性，上傳到cos
2024-08-27
js 判斷是什麼瀏覽器、是否為谷歌瀏覽器
2021-01-20
JS瀏覽器谷歌
如何在Java中判斷是否為空
2019-01-23
Java
判斷物件是否為空物件的方式
2024-03-18
物件

利用js判斷檔案是否為utf-8編碼

常規方案

大檔案方案

相關文章