PHP透過FFI呼叫CJieba分詞

半山發表於2020-07-31

這裡嘗試使用PHP 7.4的 FFI 測試直接呼叫cjieba分詞的動態庫。

選用CJieba的原因是FFI使用的是C的呼叫約定，如果用Cpp，還得自己包裝一下，然後extern C,讓編譯器生成標準C的動態庫。

段錯誤

C變數沒有初始化
直接呼叫了C的函式，沒有透過FFI 初始化後的的C物件呼叫
非空判斷需要使用 FFI::isNull($x)
指標形式的陣列不能用foreach

指標形式陣列的迴圈

檢視C程式碼發現Cut部分如下：

CJiebaWord* Cut(Jieba handle, const char* sentence, size_t len) {
  cppjieba::Jieba* x = (cppjieba::Jieba*)handle;
  vector<string> words;
  string s(sentence, len);
  x->Cut(s, words);

  CJiebaWord* res = (CJiebaWord*)malloc(sizeof(CJiebaWord) * (words.size() + 1));
  size_t offset = 0;
  for (size_t i = 0; i < words.size(); i++) {
    res[i].word = sentence + offset;
    res[i].len = words[i].size();
    offset += res[i].len;
  }
  if (offset != len) {
    free(res);
    return NULL;
  }
  res[words.size()].word = NULL;
  res[words.size()].len = 0;
  return res;
}

返回的是一個結構體指標，在C語言裡，陣列名實際是陣列第一個變數的指標地址，所以可以透過指標地址++的操作來遍歷，在FFI裡面呢？

對於這個陣列，我一開始用foreach 迴圈，直接報段錯誤了,後來和C一樣，直接用指標++，發現是可行的，這裡給FFI點贊，居然也可以直接操作C指標。

分詞結果獲取

如上面的程式碼，對於單個分詞CJiebaWord，也不是儲存的分詞，而是sentence + offset，就是說第一個分詞結果肯定是原始字串。

在C的demo裡是printf格式化(. 表示欄位寬度和對齊)，但是PHP裡沒有類似的方法，需要擷取字串substr($x->word, 0, $x->len)

  for (x = words; x->word; x++) {
    printf("%*.*s\n", x->len, x->len, x->word);
  }

編譯動態庫

make libjieba.so

執行

time php demo.php

執行c demo

make demo
time ./demo

結果

PHP
load: 0.00025701522827148

real    1m59.619s
user    1m56.093s
sys     0m3.517s


C
real    1m54.738s
user    1m50.382s
sys     0m4.323s

CPU 佔用基本都是 12%

可以發現使用FFI，PHP的速度基本和C差不多，如有CPU佔用大的業務，可以嘗試使用其它語言（C/C++,golang,Rust等）編寫然後匯出標準C的動態庫。

git倉庫地址 github.com/dwdcth/phpjieba_ffi

在沒有FFI之前，需要系統呼叫或者sdk方式呼叫的地方，PHP就需要開發擴充套件，但是開發擴充套件不僅需要理解C語言，還得了解PHP核心，比較困難。
現在就方便多了，直接使用FFI呼叫動態庫即可。

擴充套件宏展開

比如海康的sdk裡有大量的宏
gcc -E -P HCNetSDK.h -o HCNetSDK_unfold.h
支援 type define 放心使用

注：本文同步發表到部落格園

本作品採用《CC 協議》，轉載必須註明作者和本文連結

PHP通過FFI呼叫CJieba分詞
2020-07-31
PHPJieba分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞-支援php5, php7
2019-05-10
JiebaPHP套件中文分詞
PHP FFI呼叫go，居然比go還快
2020-08-12
PHPGo
PHP 7.4 前瞻：FFI
2019-03-03
PHP
PHP FFI 實現list
2022-05-12
PHP
PHP 如何透過 JSON-RPC 呼叫實現以太坊互動
2018-08-23
PHPJSONRPC
動詞過去式過去分詞
2024-11-12
分詞
python呼叫hanlp分詞包手記
2018-12-26
PythonHanLP分詞
在Java中使用panama FFI呼叫Rust庫
2021-09-15
JavaRust
laravel 透過 rpc 呼叫 golang 程式
2021-03-10
LaravelRPCGolang
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
PHP透過DOM操作XML
2021-09-09
PHPXML
過去分詞的辨析
2024-11-15
分詞
VicWord 一個純php的分詞
2019-04-22
PHP分詞
Spring MVCD框架中呼叫HanLP分詞的方法
2019-07-10
SpringMVC框架HanLP分詞
PHP FFI詳解 - 一種全新的PHP擴充套件方式
2021-03-03
PHP套件
BlazorHybrid 透過Blazor簡單呼叫本機功能
2024-06-09
Blazor
Laravel 中使用 PHP 分詞庫 (jieba) 和 (scws)
2018-06-24
LaravelPHP分詞Jieba
中文分詞 PHP 擴充套件 SCWS 安裝
2020-12-10
中文分詞PHP套件
php 透過 JSON RPC 與 golang 通訊
2023-01-12
PHPJSONRPCGolang
PHP 真的不行了？透過 PHP 的前世今生看真相
2024-07-04
PHP
nginx 透過 php 代理給圖片加水印
2022-04-29
NginxPHP
Oracle 儲存過程分頁 + Sqlsugar呼叫
2024-11-08
Oracle儲存過程SqlSugar
C# 透過反射(Reflection)呼叫不同名泛型方法
2024-07-27
C#反射泛型
[PAT B] 1003 我要透過！ (20 分)
2019-12-23
筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
分詞
2024-04-02
分詞
Python透過函式名呼叫函式的幾種場景
2024-04-13
Python函式
如何將圖片轉換為向量？（透過DashScope API呼叫）
2024-09-12
API
透過Jupyter Notebook+OpenAI+ollama簡單的呼叫本地模型
2024-07-27
OpenAI模型
ES 筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
PHP透過pem檔案校驗簽名異常
2024-11-03
PHP
如何透過PHP將“if”新增到給定字串的前面
2021-09-11
PHP字串
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
Python透過openapi呼叫釘釘機器人傳送訊息
2024-11-12
PythonAPI機器人
透過coca A/B功能比較兩個詞的搭配對於一詞多義的情況
2024-06-26