用JavaScript計算字串佔用位元組數

銀河使者發表於2008-05-29
最近和JavaScript糾纏上了。

遇到這麼一個問題,資料庫的字符集為UTF-8的,要在頁面上使用JavaScript驗證輸入的文字用UTF-8儲存時佔用位元組長度。JavaScript的String物件有length屬性,但是這個計算的是字元數,不是位元組數(問題總是翻來覆去的,記得當年玩Delphi的時候,還得寫程式計算字串的字元數,因為Delphi中String的length是位元組數...)。偷懶一點的辦法是將驗證程式碼中最大長度設定為資料庫中對應欄位的長度的1/3,但是這樣準確來說有點不合適。

所以想辦法在JavaScript中判斷在UTF-8下儲存的String的位元組數,在網上找到很多關於Unicode介紹的文件,最重要的是字元編碼數值對應的儲存長度:

UCS-2編碼(16進位制) UTF-8 位元組流(二進位制)
0000 - 007F 0xxxxxxx (1位元組)
0080 - 07FF 110xxxxx 10xxxxxx (2位元組)
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (3位元組)



於是程式碼如下:

function mbStringLength(s) {
        var totalLength = 0;
        var i;
        var charCode;
        for (i = 0; i < s.length; i++) {
          charCode = s.charCodeAt(i);
          if (charCode < 0x007f) {
            totalLength = totalLength + 1;
          } else if ((0x0080 <= charCode) && (charCode <= 0x07ff)) {
            totalLength += 2;
          } else if ((0x0800 <= charCode) && (charCode <= 0xffff)) {
            totalLength += 3;
          }
        }
        //alert(totalLength);
        return totalLength;
      }



實際上,0x0080到0x07ff之間的字元很少會在實際使用者輸入中用到。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/12921506/viewspace-332621/,如需轉載,請註明出處,否則將追究法律責任。

相關文章