如何判斷沒有字尾的檔案型別?

時傾發表於2022-01-06

正常情況下,檔案都有字尾名,例如:xxx.gif, xxxx.avi。但是也存在字尾名的檔案,去掉檔案的字尾名,並不會影響檔案本身的內容。所以在檔案的資料中,有其他的方式能夠標識出檔案的型別。
在程式設計中,把標識檔案格式的常量稱為 Magic Number, 原名叫做:File Signatures(檔案簽名)。

Magic Number 在程式設計中有以下三類使用:

  1. 無法解釋其意義的唯一值或者在程式中多次被引用但又可被命名常數所替代的值。
  2. 用來識別文字型別的一個常量數值或字元。
  3. 不易被誤解為其他意義的特有值,如全域性唯一識別符號。

利用 Magic Number 判斷檔案型別

1. 請求獲取檔案資料,並轉成 Array Buffer

function loadFile(url) {
 return new Promise((resolve, reject) => {
   const xhr = new XMLHttpRequest()
   xhr.onreadystatechange = function() {
     if (xhr.readyState === 4) {
       resolve(xhr)
     }
   }
   xhr.onerror = reject
   xhr.open('GET', url, true)
   xhr.responseType = 'arraybuffer'
   xhr.send('')
 })
}

2. buffer 轉 16 進位制字串

function buf2hex(buffer) {
  return Array.prototype.map.call(new Uint8Array(buffer), x => ('00' + x.toString(16)).slice(-2)).join('')
}

3. 根據 16 進位制字串獲取檔案頭,判斷檔案型別

function getFileType(url) {
  loadFile(url).then(xhr => {
    const hex = buf2hex(xhr.response)
    console.log(hex)
    // todo....
  })
}

測試:
image-20220106153344289.png

常見檔案頭幻數

JPEG (jpg),檔案頭:ffd8ff
PNG (png),檔案頭:89504E47
GIF (gif),檔案頭:47494638
TIFF (tif),檔案頭:49492A00
Windows Bitmap (bmp),檔案頭:424D
CAD (dwg),檔案頭:41433130
Adobe Photoshop (psd),檔案頭:38425053
Rich Text Format (rtf),檔案頭:7B5C727466
XML (xml),檔案頭:3C3F786D6C
HTML (html),檔案頭:68746D6C3E
Email [thorough only] (eml),檔案頭:44656C69766572792D646174653A
Outlook Express (dbx),檔案頭:CFAD12FEC5FD746F
Outlook (pst),檔案頭:2142444E
MS Word/Excel (xls.or.doc),檔案頭:D0CF11E0
MS Access (mdb),檔案頭:5374616E64617264204A
WordPerfect (wpd),檔案頭:FF575043
Adobe Acrobat (pdf),檔案頭:255044462D312E
Quicken (qdf),檔案頭:AC9EBD8F
Windows Password (pwl),檔案頭:E3828596
ZIP Archive (zip),檔案頭:504B0304
RAR Archive (rar),檔案頭:52617221
Wave (wav),檔案頭:57415645
AVI (avi),檔案頭:41564920
Real Audio (ram),檔案頭:2E7261FD
Real Media (rm),檔案頭:2E524D46
MPEG (mpg),檔案頭:000001BA
MPEG (mpg),檔案頭:000001B3
Quicktime (mov),檔案頭:6D6F6F76
Windows Media (asf),檔案頭:3026B2758E66CF11
MIDI (mid),檔案頭:4D546864
mp3: 494433

相關文章