這裡嘗試使用PHP 7.4的 FFI 測試直接呼叫cjieba分詞的動態庫。
選用CJieba的原因是FFI使用的是C的呼叫約定,如果用Cpp,還得自己包裝一下,然後extern C,讓編譯器生成標準C的動態庫。
段錯誤
- C變數沒有初始化
- 直接呼叫了C的函式,沒有通過FFI 初始化後的的C物件呼叫
- 非空判斷 需要使用 FFI::isNull($x)
- 指標形式的陣列 不能用foreach
指標形式陣列的迴圈
檢視C程式碼發現Cut部分如下:
CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) {
cppjieba::Jieba* x = (cppjieba::Jieba*)handle;
vector<string> words;
string s(sentence, len);
x->Cut(s, words);
CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() + 1));
size_t offset = 0;
for (size_t i = 0; i < words.size(); i++) {
res[i].word = sentence + offset;
res[i].len = words[i].size();
offset += res[i].len;
}
if (offset != len) {
free(res);
return NULL;
}
res[words.size()].word = NULL;
res[words.size()].len = 0;
return res;
}
返回的是一個結構體指標,在C語言裡,陣列名實際是陣列第一個變數的指標地址,所以可以通過指標地址++的操作來遍歷,在FFI裡面呢?
對於這個陣列,我一開始用foreach 迴圈,直接報段錯誤了,後來和C一樣,直接用指標++,發現是可行的,這裡給FFI點贊,居然也可以直接操作C指標。
分詞結果獲取
如上面的程式碼,對於單個分詞CJiebaWord,也不是儲存的分詞,而是sentence + offset
,就是說第一個分詞結果肯定是原始字串。
在C的demo裡是printf格式化(. 表示欄位寬度和對齊),但是PHP裡沒有類似的方法,需要擷取字串substr($x->word, 0, $x->len)
for (x = words; x->word; x++) {
printf("%*.*s\n", x->len, x->len, x->word);
}
編譯動態庫
make libjieba.so
執行
time php demo.php
執行c demo
make demo
time ./demo
結果
PHP
load: 0.00025701522827148
real 1m59.619s
user 1m56.093s
sys 0m3.517s
C
real 1m54.738s
user 1m50.382s
sys 0m4.323s
CPU 佔用 基本都是 12%
可以發現使用FFI,PHP的速度基本和C差不多,如有CPU佔用大的業務,可以嘗試使用其它語言(C/C++,golang,Rust等)編寫然後匯出標準C的動態庫。
git倉庫地址 github.com/dwdcth/phpjieba_ffi
在沒有FFI之前,需要系統呼叫或者sdk方式呼叫的地方,PHP就需要開發擴充套件,但是開發擴充套件不僅需要理解C語言,還得了解PHP核心,比較困難。
現在就方便多了,直接使用FFI呼叫動態庫即可。
擴充套件 巨集展開
比如海康的sdk裡有大量的巨集gcc -E -P HCNetSDK.h -o HCNetSDK_unfold.h
支援 type define 放心使用
注:本文同步發表到部落格園
本作品採用《CC 協議》,轉載必須註明作者和本文連結