Needle：基於 DFA 的正規表示式庫，可編譯為 JVM 位元組碼

banq發表於2024-05-14

原文網址 : https://www.jdon.com/73673.html

編譯JVM

許多年前，Kragen抱怨 Java 正規表示式的實現和效能，並建議發出 JVM 位元組碼的實現可以表現更好。

今天，我釋出了Needle的 0.0.1 版本，這是一個將正規表示式編譯為 JVM 位元組碼的庫。它將每個正規表示式編譯為確定性有限自動機 (DFA)，然後將其編譯為 Java 類。

程式碼會分析 DFA 以提取有助於更高效匹配的資訊。
它能檢測出所需的字首、字尾和前字尾，
這些字首、字尾和前字尾可以使用 String.indexOf 找到，而第一個字元則可以在 while 迴圈中輕鬆測試（例如 [Ss]）。
這使得該類在 DFA 自動機中花費的時間更少，而在快速迴圈中花費的時間更多。

基準
Regex 的效能不適合簡明扼要的總結，而needle 的設計更是如此。例如，

有一種最佳化會計算匹配的最小和最大長度，並在無法匹配時提前退出。在測試整個字串是否與 regex 匹配時，或者在足夠小的字串中搜尋時，這種效果就會顯現出來，
但在查詢大字串中的匹配子串時，這種效果就不會顯現。

我已經編寫了許多基準測試，涵蓋了許多不同的情況，但需要編寫程式碼來重複報告和比較結果。與此同時，我包含了一個特定基準測試 ( SherlockBenchmark ) 的結果。

對於每個正規表示式，我們搜尋《福爾摩斯歷險記》的古騰堡計劃版本，找到該模式的所有匹配項。對於每個正規表示式，我們比較了 Java 標準庫 Needle 和brics 自動機庫，這是一個高效的 DFA 實現。

Needle 在這些模式上比 brics 慢，但仍然比標準庫快得多。這是因為Needle 自動機的核心迴圈比brics 自動機慢。

當我們有一個可用的子字串用於搜尋時，正規表示式的效能由搜尋該子字串的速度決定，而自動機的速度則不太重要。但當沒有子串時，brics 獲勝。

正規表示式匹配雙位元組字元
2018-05-20
字元
正規表示式基礎
2019-12-23
匹配中國郵政編碼正規表示式
2020-02-18
關於JS的正規表示式
2018-04-24
JS
“正規表示式”應當稱為“規則表示式”
2018-09-23
編譯原理: Thompson 構造法（正規表示式轉 NFA）
2020-11-26
編譯原理
密碼正規表示式
2024-09-09
密碼
python基礎之正規表示式和re模組
2020-03-12
Python
JS基礎：正規表示式
2021-09-09
JS
Python 正規表示式 re 模組
2018-10-12
Python
正規表示式分組詳解
2018-08-19
正規表示式（三）：pythonre模組
2018-07-10
Python
python re模組正規表示式
2018-09-12
Python
Java 正規表示式——捕獲組
2020-07-03
Java
python正規表示式(re模組)
2020-08-08
Python
[譯]JavaScript的新功能將改變正規表示式的編寫方式
2019-02-19
JavaScript
JVM 模板直譯器之如何根據位元組碼生成彙編碼？
2021-09-09
JVM
【正規表示式】常用的正規表示式（數字，漢字，字串，金額等的正規表示式）
2021-12-13
字串
shell指令碼正規表示式
2024-04-21
指令碼
Java-正規表示式regex庫
2018-08-27
Java
Go 正規表示式庫之 commonregex
2021-05-31
Go
python反編譯之位元組碼
2019-05-19
Python編譯
python 關於正規表示式re
2020-04-21
Python
匹配A股程式碼的正規表示式
2020-02-13
Python 正規表示式模組詳解
2018-11-02
Python
shell基礎 — 基本正規表示式
2018-10-08
前端基礎之正規表示式
2018-07-07
前端
bash基礎特性、正規表示式
2019-07-15
正規表示式基礎知識
2018-04-15
Python基礎之正規表示式
2024-06-30
Python
python基礎操作——正規表示式
2023-04-10
Python
正規表示式
2024-10-30
正規表示式.
2019-11-10
python中re模組的使用（正規表示式）
2021-01-17
Python
JavaSE基礎:”頭疼”的正規表示式
2019-01-23
Java
JavaSE基礎:"頭疼"的正規表示式
2018-04-09
Java
【譯】JS常用正規表示式備忘錄
2019-04-29
JS
正規表示式（程式碼java版）
2020-09-27
Java

Needle：基於 DFA 的正規表示式庫，可編譯為 JVM 位元組碼

相關文章