php 擷取中英文混合字串

王不凡發表於2019-02-16

php 擷取中英文字串

php 擷取中英文字串,就不必再用substr或者mb_substr

//擷取想這樣的字串
a李三

像不確定字串是什麼組成方式的時候,拿不準該用substr還是mb_substr的時候 ,可以試試以下方法,是否能解決的你得煩惱

利用ASCII

/**
 * 
 * 中英混合的字串擷取
 * @param unknown_type $sourcestr
 * @param unknown_type $cutlength
 */
function assoc_substr($sourcestr, $cutlength) {
      $returnstr = ``;
      $i = 0;
      $n = 0;
      $str_length = strlen ( $sourcestr ); //字串的位元組數 
      while ( ($n < $cutlength) and ($i <= $str_length) ) {
        $temp_str = substr ( $sourcestr, $i, 1 );
        $ascnum = Ord ( $temp_str ); //得到字串中第$i位字元的ascii碼 
        if ($ascnum >= 224) {//如果ASCII位高與224,
              $returnstr = $returnstr . substr ( $sourcestr, $i, 3 ); //根據UTF-8編碼規範,將3個連續的字元計為單個字元   
              $i = $i + 3; //實際Byte計為3
              $n ++; //字串長度計1
        } elseif ($ascnum >= 192){ //如果ASCII位高與192,
              $returnstr = $returnstr . substr ( $sourcestr, $i, 2 ); //根據UTF-8編碼規範,將2個連續的字元計為單個字元 
              $i = $i + 2; //實際Byte計為2
              $n ++; //字串長度計1
        } elseif ($ascnum >= 65 && $ascnum <= 90) {//如果是大寫字母,
          $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
          $i = $i + 1; //實際的Byte數仍計1個
          $n ++; //但考慮整體美觀,大寫字母計成一個高位字元
        }elseif ($ascnum >= 97 && $ascnum <= 122) {
            $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
            $i = $i + 1; //實際的Byte數仍計1個
            $n ++; //但考慮整體美觀,大寫字母計成一個高位字元
        } else {//其他情況下,半形標點符號,
          $returnstr = $returnstr . substr ( $sourcestr, $i, 1 );
          $i = $i + 1; 
          $n = $n + 0.5; 
        }
      }
      return $returnstr;
}

通過這樣就可以很方便的進行一些字串的擷取等,避免因為位元組不同而擷取亂碼或者不對的情況。

相關文章