[PHP原始碼閱讀]strpos、strstr和stripos、stristr函式

hoohack發表於2019-05-14

原文網址 : https://flycode.co/archives/74494

我在github有對PHP原始碼更詳細的註解。感興趣的可以圍觀一下，給個star。PHP5.4原始碼註解。可以通過commit記錄檢視已新增的註解。

strpos

mixed strpos ( string $haystack, mixed $needle [, int $offset = 0 ] )

如果offset指定了，查詢會從offset的位置開始。offset不能為負數。

返回needle第一次出現在haystack的位置。如果在haystack中找不到needle，則返回FALSE。

needle，如果needle不是字串，它會被轉換成整型數值並賦值為該數值的ASCII字元。請看下面例子。

例子


$str = "hello";
$pos = strpos($str, 111);
// 111的ASCII值是o，因此$pos = 4

strpos核心原始碼

if (Z_TYPE_P(needle) == IS_STRING) {
     if (!Z_STRLEN_P(needle)) {
          php_error_docref(NULL TSRMLS_CC, E_WARNING, "Empty needle");
          RETURN_FALSE;
     }

     // 呼叫php_memnstr函式查詢needle
     found = php_memnstr(haystack + offset,
                            Z_STRVAL_P(needle),
                            Z_STRLEN_P(needle),
                            haystack + haystack_len);
     } else {
          // 如果不是字串，轉換成數字並賦值為該數字的ASCII字元。
          if (php_needle_char(needle, needle_char TSRMLS_CC) != SUCCESS) {
               RETURN_FALSE;
          }
          //設定結束字元
          needle_char[1] = 0;
          found = php_memnstr(haystack + offset,
                            needle_char,
                            1,
                            haystack + haystack_len);
　　  }
}

有一點要注意的是，如果needle不是字串的話，會呼叫php_needle_char函式將needle轉成整型數字並轉換為其ASCII值。

查詢函式

函式最後返回的是found，php_memnstr函式實現了查詢的方法。那麼再繼續看看php_memnstr函式做了什麼：

#define php_memnstr zend_memnstr

php_memnstr是函式zend_memnstr的巨集定義，檢視zend_memnstr函式如下：


static inline char *
zend_memnstr(char *haystack, char *needle, int needle_len, char *end)
{
    char *p = haystack;
    char ne = needle[needle_len-1];
    if (needle_len == 1) {
        return (char *)memchr(p, *needle, (end-p));
    }

    if (needle_len > end-haystack) {
        return NULL;
    }

    // 第一個優化，只查詢end - needle_len次
    end -= needle_len;

    while (p <= end) {
        // 第二個優化，先判斷字串的開頭和結尾是否一樣再判斷整個字串
        if ((p = (char *)memchr(p, *needle, (end-p+1))) && ne == p[needle_len-1]) {
            if (!memcmp(needle, p, needle_len-1)) {
                return p;
            }
        }

        if (p == NULL) {
            return NULL;
        }

        p++;
    }

    return NULL;
}

第一個優化，因為(char *)memchr(p, *needle, (end-p+1)是在end – needle_len + 1（即haystack_len+1）中查詢，如果p為空，說明needle的第一個字元在p中從未出現過。

strstr


string strstr ( string $haystack, mixed $needle [, bool $before_needle = false ] )

返回needle在haystack中第一次出現的位置到結束的字串。

這個函式的區分大小寫的。

如果needle在haystack中不存在，返回FALSE。

如果before_needle為true，則返回haystack中needle在haystack第一次出現的位置之前的字串。

strstr核心原始碼


if (found) {
        // 計算出found的位置
        found_offset = found - haystack;
        if (part) {
            RETURN_STRINGL(haystack, found_offset, 1);
        } else {
            RETURN_STRINGL(found, haystack_len - found_offset, 1);
        }
}

strstr函式的前半部分跟strpos類似，區別在於strstr函式在找到位置後，需要返回haystack部分的字串。part變數就是呼叫strstr函式時傳遞的before_needle變數。

stripos

mixed stripos ( string $haystack, string $needle [, int $offset = 0 ] )

不區分大小寫的strpos。實現方式跟下面的類似，主要是使用一份拷貝然後將需要比較的字串轉換成小寫字元後進行再進行查詢。

stristr


string stristr ( string $haystack, mixed $needle [, bool $before_needle = false ] )

不區分大小寫的strstr。

核心原始碼


// 拷貝一份haystack
haystack_dup = estrndup(haystack, haystack_len);

if (Z_TYPE_P(needle) == IS_STRING) {
    char *orig_needle;
    if (!Z_STRLEN_P(needle)) {
        php_error_docref(NULL TSRMLS_CC, E_WARNING, "Empty needle");
        efree(haystack_dup);
        RETURN_FALSE;
    }
    orig_needle = estrndup(Z_STRVAL_P(needle), Z_STRLEN_P(needle));
    // 呼叫php_stristr函式找出orig_needle的值。
    found = php_stristr(haystack_dup, orig_needle,    haystack_len, Z_STRLEN_P(needle));
    efree(orig_needle);
} else {
    if (php_needle_char(needle, needle_char TSRMLS_CC) != SUCCESS) {
        efree(haystack_dup);
        RETURN_FALSE;
    }
    needle_char[1] = 0;

    found = php_stristr(haystack_dup, needle_char,    haystack_len, 1);
}

if (found) {
    found_offset = found - haystack_dup;
    if (part) {
        RETVAL_STRINGL(haystack, found_offset, 1);
    } else {
        RETVAL_STRINGL(haystack + found_offset, haystack_len - found_offset, 1);
    }
} else {
    RETVAL_FALSE;
}

// 釋放變數
efree(haystack_dup);

可以知道，found是從php_stristr中得到的，繼續檢視php_stristr函式：

PHPAPI char *php_stristr(char *s, char *t, size_t s_len, size_t t_len)
{
    php_strtolower(s, s_len);
    php_strtolower(t, t_len);
    return php_memnstr(s, t, t_len, s + s_len);
}

這個函式的功能就是將字串都轉成小寫之後呼叫php_mennstr函式來查詢needle在haystack第一次出現的位置。

總結

因為strpos/stripos返回的是位置，位置從0開始計算，所以判斷查詢失敗都用=== FALSE更適合。

閱讀PHP的原始碼收穫挺多，一方面可以知道某個函式的具體實現原理是怎樣的，另一方面可以學習到一些程式設計優化方案。

到此本文結束，如果還有什麼疑問或者建議，可以多多交流，原創文章，文筆有限，才疏學淺，文中若有不正之處，萬望告知。

如果本文對你有幫助，望點下推薦，謝謝^_^

最後再安利一下，我在github有對PHP原始碼更詳細的註解。感興趣的可以圍觀一下，給個star。PHP5.4原始碼註解。可以通過commit記錄檢視已新增的註解。

[PHP原始碼閱讀]strlen函式
2019-05-10
PHP原始碼函式
5. PHP 函式 strstr ()
2020-01-10
PHP函式
1. PHP 函式學習 strpos ()
2020-01-10
PHP函式
2. PHP 函式學習 stripos ()
2020-01-10
PHP函式
ONNX Runtime 原始碼閱讀：Graph::SetGraphInputsOutputs() 函式
2022-05-04
原始碼函式
PHP程式碼審計04之strpos函式使用不當
2020-10-29
PHP函式
【原始碼閱讀】AndPermission原始碼閱讀
2019-05-09
原始碼
C 庫函式 - strstr()
2024-04-27
函式
php的strpos-mb_strpos
2024-03-13
PHP
【原始碼閱讀】Glide原始碼閱讀之with方法（一）
2019-04-17
原始碼IDE
【原始碼閱讀】Glide原始碼閱讀之into方法（三）
2019-04-18
原始碼IDE
Appdash原始碼閱讀——RecentStore和LimitStore
2018-07-12
APP原始碼MIT
【原始碼閱讀】Glide原始碼閱讀之load方法（二）
2019-04-18
原始碼IDE
讀 zepto 原始碼之工具函式
2019-02-28
原始碼函式
臨時讀原始碼的函式
2020-11-27
原始碼函式
【C++】【原始碼解讀】std::is_same函式原始碼解讀
2022-02-09
C++原始碼函式
ReactorKit原始碼閱讀
2019-03-03
React原始碼
Vollery原始碼閱讀(—)
2019-02-22
原始碼
NGINX原始碼閱讀
2019-01-19
Nginx原始碼
ThreadLocal原始碼閱讀
2018-12-03
thread原始碼
原始碼閱讀-HashMap
2018-08-15
原始碼HashMap
Runtime 原始碼閱讀
2018-03-12
原始碼
RunLoop 原始碼閱讀
2018-04-17
OOP原始碼
AmplifyImpostors原始碼閱讀
2024-11-28
原始碼
stack原始碼閱讀
2024-06-02
原始碼
CountDownLatch原始碼閱讀
2021-12-25
CountDownLatch原始碼
fuzz原始碼閱讀
2021-11-29
原始碼
HashMap 原始碼閱讀
2021-09-09
HashMap原始碼
delta原始碼閱讀
2021-09-01
原始碼
AQS原始碼閱讀
2022-04-22
AQS原始碼
Mux 原始碼閱讀
2020-11-23
UX原始碼
ConcurrentHashMap原始碼閱讀
2020-11-26
HashMap原始碼
HashMap原始碼閱讀
2020-11-26
HashMap原始碼
vue原始碼解讀-建構函式
2018-11-20
Vue原始碼函式
PostgreSQL 原始碼解讀（3）- 如何閱讀原始碼
2018-08-02
SQL原始碼
一段柯里化函式程式碼閱讀
2019-03-01
函式
redux 和 react-redux 部分原始碼閱讀
2018-12-29
ReduxReact原始碼
Spring 6 原始碼編譯和高效閱讀原始碼技巧分享
2022-12-12
Spring原始碼編譯