PHP通過FFI呼叫CJieba分詞

半山發表於2020-07-31

原文網址 : https://learnku.com/articles/47979

PHPJieba分詞

這裡嘗試使用PHP 7.4的 FFI 測試直接呼叫cjieba分詞的動態庫。

選用CJieba的原因是FFI使用的是C的呼叫約定，如果用Cpp，還得自己包裝一下，然後extern C,讓編譯器生成標準C的動態庫。

段錯誤

C變數沒有初始化
直接呼叫了C的函式，沒有通過FFI 初始化後的的C物件呼叫
非空判斷需要使用 FFI::isNull($x)
指標形式的陣列不能用foreach

指標形式陣列的迴圈

檢視C程式碼發現Cut部分如下：

CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) {
  cppjieba::Jieba* x = (cppjieba::Jieba*)handle;
  vector<string> words;
  string s(sentence, len);
  x->Cut(s, words);

  CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() + 1));
  size_t offset = 0;
  for (size_t i = 0; i < words.size(); i++) {
    res[i].word = sentence + offset;
    res[i].len = words[i].size();
    offset += res[i].len;
  }
  if (offset != len) {
    free(res);
    return NULL;
  }
  res[words.size()].word = NULL;
  res[words.size()].len = 0;
  return res;
}

返回的是一個結構體指標，在C語言裡，陣列名實際是陣列第一個變數的指標地址，所以可以通過指標地址++的操作來遍歷，在FFI裡面呢？

對於這個陣列，我一開始用foreach 迴圈，直接報段錯誤了,後來和C一樣，直接用指標++，發現是可行的，這裡給FFI點贊，居然也可以直接操作C指標。

分詞結果獲取

如上面的程式碼，對於單個分詞CJiebaWord，也不是儲存的分詞，而是sentence + offset，就是說第一個分詞結果肯定是原始字串。

在C的demo裡是printf格式化(. 表示欄位寬度和對齊)，但是PHP裡沒有類似的方法，需要擷取字串substr($x->word, 0, $x->len)

  for (x = words; x->word; x++) {
    printf("%*.*s\n", x->len, x->len, x->word);
  }

編譯動態庫

make libjieba.so

執行

time php demo.php

執行c demo

make demo
time ./demo

結果

PHP
load: 0.00025701522827148

real    1m59.619s
user    1m56.093s
sys     0m3.517s


C
real    1m54.738s
user    1m50.382s
sys     0m4.323s

CPU 佔用基本都是 12%

可以發現使用FFI，PHP的速度基本和C差不多，如有CPU佔用大的業務，可以嘗試使用其它語言（C/C++,golang,Rust等）編寫然後匯出標準C的動態庫。

git倉庫地址 github.com/dwdcth/phpjieba_ffi

在沒有FFI之前，需要系統呼叫或者sdk方式呼叫的地方，PHP就需要開發擴充套件，但是開發擴充套件不僅需要理解C語言，還得了解PHP核心，比較困難。
現在就方便多了，直接使用FFI呼叫動態庫即可。

擴充套件巨集展開

比如海康的sdk裡有大量的巨集
gcc -E -P HCNetSDK.h -o HCNetSDK_unfold.h
支援 type define 放心使用

注：本文同步發表到部落格園

本作品採用《CC 協議》，轉載必須註明作者和本文連結

PHP透過FFI呼叫CJieba分詞
2020-07-31
PHPJieba分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞-支援php5, php7
2019-05-10
JiebaPHP套件中文分詞
PHP FFI呼叫go，居然比go還快
2020-08-12
PHPGo
PHP 7.4 前瞻：FFI
2019-03-03
PHP
PHP FFI 實現list
2022-05-12
PHP
筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
ES 筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
動詞過去式過去分詞
2024-11-12
分詞
python呼叫hanlp分詞包手記
2018-12-26
PythonHanLP分詞
在Java中使用panama FFI呼叫Rust庫
2021-09-15
JavaRust
PHP 如何通過 JSON-RPC 呼叫實現以太坊互動
2018-08-23
PHPJSONRPC
grpc套路（四）php通過grpc呼叫golang的grpc介面服務
2020-08-22
RPCPHPGolang
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
過去分詞的辨析
2024-11-15
分詞
VicWord 一個純php的分詞
2019-04-22
PHP分詞
Spring MVCD框架中呼叫HanLP分詞的方法
2019-07-10
SpringMVC框架HanLP分詞
PHP FFI詳解 - 一種全新的PHP擴充套件方式
2021-03-03
PHP套件
4.5 通過SRVCTL 呼叫Oracle Restart
2020-09-01
OracleREST
laravel 通過 rpc 呼叫 golang 程式
2021-03-10
LaravelRPCGolang
JS呼叫本地exe（通過URL Protocol）
2020-10-25
JSProtocol
Laravel 中使用 PHP 分詞庫 (jieba) 和 (scws)
2018-06-24
LaravelPHP分詞Jieba
中文分詞 PHP 擴充套件 SCWS 安裝
2020-12-10
中文分詞PHP套件
Oracle 儲存過程分頁 + Sqlsugar呼叫
2024-11-08
Oracle儲存過程SqlSugar
java程式通過swing呼叫javaFx更新資料
2018-03-26
Java
分詞
2024-04-02
分詞
PHP-FPM 與 NGINX 通訊過程
2019-04-20
PHPNginx
php 透過 JSON RPC 與 golang 通訊
2023-01-12
PHPJSONRPCGolang
Node.js通過Dubbo2.js呼叫Java
2019-04-02
Node.jsJava
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
通過EFCore呼叫GBase8s資料庫儲存過程
2021-11-26
資料庫儲存過程
通過 WebAssembly 在瀏覽器執行 PHP
2018-05-30
Web瀏覽器PHP
分詞-1
2024-04-02
分詞
java通過url呼叫遠端介面返回json資料
2019-02-25
JavaJSON
通過COM呼叫, 讀取AutoCAD機械版Bom表
2018-05-31
vs2019 Com元件初探-通過IDispatch介面呼叫Com
2020-12-02
元件
基於PHP + TRIE樹實現敏感詞過濾演算法
2019-04-16
PHP演算法