Base64筆記

1.

昨天的《MIME筆記》中提到，MIME主要使用兩種編碼轉換方式----Quoted-printable和Base64----將8位的非英語字元轉化為7位的ASCII字元。

雖然這樣的初衷，是為了滿足電子郵件中不能直接使用非ASCII碼字元的規定，但是也有其他重要的意義：

a）所有的二進位制檔案，都可以因此轉化為可列印的文字編碼，使用文字軟體進行編輯；

b）能夠對文字進行簡單的加密。

2.

首先，簡單介紹一下Quoted-printable編碼轉換方式。它主要用於ACSII文字中夾雜少量非ASCII碼字元的情況，不適合於轉換純二進位制檔案。

它規定將每一個8位的位元組，轉換為3個字元。

第一個字元是"="號，這是固定不變的。

後面二個字元是二個十六進位制數，分別代表了這個位元組前四位和後四位的數值。

舉例來說，ASCII碼中"換頁鍵"（form feed）是12，二進位制形式是00001100，寫成十六進位制就是0C，因此它的編碼值為"=0C"。"="號的ASCII值是61，二進位制形式是00111101，因為它的編碼值是"=3D"。除了可列印的ASCII碼以外，所有其他字元都必須用這種方式進行轉換。

所有可列印的ASCII碼字元（十進位制值從33到126）都保持原樣不變，"="（十進位制值61）除外。

3.

下面，詳細介紹Base64的編碼轉換方式。

所謂Base64，就是說選出64個字元----小寫字母a-z、大寫字母A-Z、數字0-9、符號"+"、"/"（再加上作為墊字的"="，實際上是65個字元）----作為一個基本字符集。然後，其他所有符號都轉換成這個字符集中的字元。

具體來說，轉換方式可以分為四步。

第一步，將每三個位元組作為一組，一共是24個二進位制位。

第二步，將這24個二進位制位分為四組，每個組有6個二進位制位。

第三步，在每組前面加兩個00，擴充套件成32個二進位制位，即四個位元組。

第四步，根據下表，得到擴充套件後的每個位元組的對應符號，這就是Base64的編碼值。

　　0　A　　17　R　　　34　i　　　51　z

　　1　B　　18　S　　　35　j　　　52　0

　　2　C　　19　T　　　36　k　　　53　1

　　3　D　　20　U　　　37　l　　　54　2

　　4　E　　21　V　　　38　m　　　55　3

　　5　F　　22　W　　　39　n　　　56　4

　　6　G　　23　X　　　40　o　　　57　5

　　7　H　　24　Y　　　41　p　　　58　6

　　8　I　　　25　Z　　　42　q　　　59　7

　　9　J　　26　a　　　43　r　　　60　8

　　10　K　　27　b　　　44　s　　　61　9

　　11　L　　28　c　　　45　t　　　62　+

　　12　M　　29　d　　　46　u　　　63　/

　　13　N　　30　e　　　47　v

　　14　O　　31　f　　　48　w　　　

　　15　P　　32　g　　　49　x

　　16　Q　　33　h　　　50　y

因為，Base64將三個位元組轉化成四個位元組，因此Base64編碼後的文字，會比原文字大出三分之一左右。

4.

舉一個具體的例項，演示英語單詞Man如何轉成Base64編碼。

Text content	M								a								n
ASCII	77								97								110
Bit pattern	0	1	0	0	1	1	0	1	0	1	1	0	0	0	0	1	0	1	1	0	1	1	1	0
Index	19						22						5						46
Base64-Encoded	T						W						F						u

第一步，"M"、"a"、"n"的ASCII值分別是77、97、110，對應的二進位制值是01001101、01100001、01101110，將它們連成一個24位的二進位制字串010011010110000101101110。

第二步，將這個24位的二進位制字串分成4組，每組6個二進位制位：010011、010110、000101、101110。

第三步，在每組前面加兩個00，擴充套件成32個二進位制位，即四個位元組：00010011、00010110、00000101、00101110。它們的十進位制值分別是19、22、5、46。

第四步，根據上表，得到每個值對應Base64編碼，即T、W、F、u。

因此，Man的Base64編碼就是TWFu。

5.

如果位元組數不足三，則這樣處理：

a）二個位元組的情況：將這二個位元組的一共16個二進位制位，按照上面的規則，轉成三組，最後一組除了前面加兩個0以外，後面也要加兩個0。這樣得到一個三位的Base64編碼，再在末尾補上一個"="號。

比如，"Ma"這個字串是兩個位元組，可以轉化成三組00010011、00010110、00010000以後，對應Base64值分別為T、W、E，再補上一個"="號，因此"Ma"的Base64編碼就是TWE=。

b）一個位元組的情況：將這一個位元組的8個二進位制位，按照上面的規則轉成二組，最後一組除了前面加二個0以外，後面再加4個0。這樣得到一個二位的Base64編碼，再在末尾補上兩個"="號。

比如，"M"這個字母是一個位元組，可以轉化為二組00010011、00010000，對應的Base64值分別為T、Q，再補上二個"="號，因此"M"的Base64編碼就是TQ==。

6.

再舉一箇中文的例子，漢字"嚴"如何轉化成Base64編碼？

這裡需要注意，漢字本身可以有多種編碼，比如gb2312、utf-8、gbk等等，每一種編碼的Base64對應值都不一樣。下面的例子以utf-8為例。

首先，"嚴"的utf-8編碼為E4B8A5，寫成二進位制就是三位元組的"11100100 10111000 10100101"。將這個24位的二進位制字串，按照第3節中的規則，轉換成四組一共32位的二進位制值"00111001 00001011 00100010 00100101"，相應的十進位制數為57、11、34、37，它們對應的Base64值就為5、L、i、l。

所以，漢字"嚴"（utf-8編碼）的Base64值就是5Lil。

7.

在PHP語言中，有一對專門的函式用於Base64轉換：base64_encode()用於編碼、base64_decode()用於解碼。

這對函式的特點是，它們不管輸入文字的編碼是什麼，都會按照規則進行Base64編碼。因此，如果你想得到utf-8編碼下的Base64對應值，你就必須自己保證，輸入的文字是utf-8編碼的。

8.

這一節介紹如何用Javascript語言進行Base64編碼。

首先，假定網頁的編碼是utf-8，我們希望對於同樣的字串，用PHP和Javascript可以得到同樣的Base64編碼。

這裡就會產生一個問題。因為Javascript內部的字串，都以utf-16的形式進行儲存，因此編碼的時候，我們首先必須將utf-8的值轉成utf-16再編碼，解碼的時候，則是解碼後還需要將utf-16的值轉回成utf-8。

網上已經有人寫好了現成的Javascript函式：

/* utf.js - UTF-8 <=> UTF-16 convertion
*
* Copyright (C) 1999 Masanao Izumo <[email protected]>
* Version: 1.0
* LastModified: Dec 25 1999
* This library is free. You can redistribute it and/or modify it.
*/

/*
* Interfaces:
* utf8 = utf16to8(utf16);
* utf16 = utf8to16(utf8);
*/

function utf16to8(str) {
var out, i, len, c;

out = "";
len = str.length;
for(i = 0; i < len; i++) {
c = str.charCodeAt(i);
if ((c >= 0x0001) && (c <= 0x007F)) {
out += str.charAt(i);
} else if (c > 0x07FF) {
out += String.fromCharCode(0xE0 | ((c >> 12) & 0x0F));
out += String.fromCharCode(0x80 | ((c >> 6) & 0x3F));
out += String.fromCharCode(0x80 | ((c >> 0) & 0x3F));
} else {
out += String.fromCharCode(0xC0 | ((c >> 6) & 0x1F));
out += String.fromCharCode(0x80 | ((c >> 0) & 0x3F));
}
}
return out;
}

function utf8to16(str) {
var out, i, len, c;
var char2, char3;

out = "";
len = str.length;
i = 0;
while(i < len) {
c = str.charCodeAt(i++);
switch(c >> 4)
{
case 0: case 1: case 2: case 3: case 4: case 5: case 6: case 7:
// 0xxxxxxx
out += str.charAt(i-1);
break;
case 12: case 13:
// 110x xxxx 10xx xxxx
char2 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x1F) << 6) | (char2 & 0x3F));
break;
case 14:
// 1110 xxxx 10xx xxxx 10xx xxxx
char2 = str.charCodeAt(i++);
char3 = str.charCodeAt(i++);
out += String.fromCharCode(((c & 0x0F) << 12) |
((char2 & 0x3F) << 6) |
((char3 & 0x3F) << 0));
break;
}
}

return out;
}

上面的這段程式碼中定義了兩個函式，utf16to8()用於將utf-16轉成utf-8，utf8to16用於將utf-8轉成utf-16。

下面才是真正用於base64編碼的函式。

/* Copyright (C) 1999 Masanao Izumo <[email protected]>
* Version: 1.0
* LastModified: Dec 25 1999
* This library is free. You can redistribute it and/or modify it.
*/

/*
* Interfaces:
* b64 = base64encode(data);
* data = base64decode(b64);
*/

var base64EncodeChars = "ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/";
var base64DecodeChars = new Array(
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1,
-1, -1, -1, -1, -1, -1, -1, -1, -1, -1, -1, 62, -1, -1, -1, 63,
52, 53, 54, 55, 56, 57, 58, 59, 60, 61, -1, -1, -1, -1, -1, -1,
-1, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14,
15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, -1, -1, -1, -1, -1,
-1, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40,
41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, -1, -1, -1, -1, -1);

function base64encode(str) {
var out, i, len;
var c1, c2, c3;

len = str.length;
i = 0;
out = "";
while(i < len) {
c1 = str.charCodeAt(i++) & 0xff;
if(i == len)
{
out += base64EncodeChars.charAt(c1 >> 2);
out += base64EncodeChars.charAt((c1 & 0x3) << 4);
out += "==";
break;
}
c2 = str.charCodeAt(i++);
if(i == len)
{
out += base64EncodeChars.charAt(c1 >> 2);
out += base64EncodeChars.charAt(((c1 & 0x3)<< 4) | ((c2 & 0xF0) >> 4));
out += base64EncodeChars.charAt((c2 & 0xF) << 2);
out += "=";
break;
}
c3 = str.charCodeAt(i++);
out += base64EncodeChars.charAt(c1 >> 2);
out += base64EncodeChars.charAt(((c1 & 0x3)<< 4) | ((c2 & 0xF0) >> 4));
out += base64EncodeChars.charAt(((c2 & 0xF) << 2) | ((c3 & 0xC0) >>6));
out += base64EncodeChars.charAt(c3 & 0x3F);
}
return out;
}

function base64decode(str) {
var c1, c2, c3, c4;
var i, len, out;

len = str.length;
i = 0;
out = "";
while(i < len) {
/* c1 */
do {
c1 = base64DecodeChars[str.charCodeAt(i++) & 0xff];
} while(i < len && c1 == -1);
if(c1 == -1)
break;

/* c2 */
do {
c2 = base64DecodeChars[str.charCodeAt(i++) & 0xff];
} while(i < len && c2 == -1);
if(c2 == -1)
break;

out += String.fromCharCode((c1 << 2) | ((c2 & 0x30) >> 4));

/* c3 */
do {
c3 = str.charCodeAt(i++) & 0xff;
if(c3 == 61)
return out;
c3 = base64DecodeChars[c3];
} while(i < len && c3 == -1);
if(c3 == -1)
break;

out += String.fromCharCode(((c2 & 0XF) << 4) | ((c3 & 0x3C) >> 2));

/* c4 */
do {
c4 = str.charCodeAt(i++) & 0xff;
if(c4 == 61)
return out;
c4 = base64DecodeChars[c4];
} while(i < len && c4 == -1);
if(c4 == -1)
break;
out += String.fromCharCode(((c3 & 0x03) << 6) | c4);
}
return out;
}

上面程式碼中的base64encode()用於編碼，base64decode()用於解碼。

因此，對utf-8字元進行編碼要這樣寫：

sEncoded=base64encode(utf16to8(str));

然後，解碼要這樣寫：

sDecoded=utf8to16(base64decode(sEncoded));

（完）

Base64筆記

相關文章