python開發編譯器

下弦月發表於2017-01-08

引言

最近剛剛用python寫完了一個解析protobuf檔案的簡單編譯器,深感ply實現詞法分析和語法分析的簡潔方便。乘著餘熱未過,頭腦清醒,記下一點總結和心得,方便各位pythoner參考使用。

ply使用

簡介

如果你不是從事編譯器或者解析器的開發工作,你可能從未聽說過ply。ply是基於python的lex和yacc,而它的作者就是大名鼎鼎Python Cookbook, 3rd Edition的作者。可能有些朋友就納悶了,我一個業務開發怎麼需要自己寫編譯器呢,各位程式設計大牛說過,中央決定了,要多嘗試新的東西。而且瞭解一些語法解析的姿勢,以後自己解析格式複雜的日誌或者數學公式,也是非常有幫助的。

針對沒有編譯基礎的童鞋,強烈建議瞭解一些文法相關的基本概念。輪子哥強烈推薦的parsing techniques以及編譯龍虎鯨書,個人感覺都不適合入門學習,在此推薦胡倫俊的編譯原理(電子工業出版社),針對概念的例子講解很多,很適合入門學習。當然也不需要特別深入研究,知道詞法分析和語法分析的相關概念和方法就可以愉快的使用ply了。文件連結: http://www.pchou.info/open-source/2014/01/18/52da47204d4cb.html

為了方便大家上手,以求解多元一次方程組為例,講解一下ply的使用。

例子說明

輸入是多個格式為x + 4y - 3.2z = 7的一次方程,為了讓例子儘可能簡單,做如下限制:

  • 每個方程含有變數的部分在等號左邊,常數在等號右邊
  • 每個方程不限制變數的個數以及變數的順序,但每個方程每個變數只允許出現一次
  • 變數的命令規則為小寫字母串(x y xx yy abc 均為合法變數名)
  • 變數的係數限制為整數和浮點數,浮點數不允許1.4e8的格式,係數和變數緊鄰,且係數不能為0
  • 方程組和方程組之間用, ;隔開

學過線性代數的童鞋肯定知道,只需要將方程組抽象為矩陣,按照線性代數的方法就可以解決。因此只需要將輸入方程組解析成右邊的矩陣和變數列表即可,剩下的求解過程就可以交給線性代數相關的工具解決。

python開發編譯器

解析

詞法解析

ply中的lex來做詞法解析,詞法解析的理論有一大堆,但是lex用起來卻非常直觀,就是用正規表示式的方式將文字字串解析為一個一個的token,下面的程式碼就是用lex實現詞法解析。

 

直接執行檔案就可以將解析的token串列印出來,如下所示,詳細的使用文件可以參考ply文件。

 

語法解析

ply中的yacc用作語法分析,雖然複雜的詞法分析可以代替簡單的語法分析,但類似於程式語言的解析再複雜的詞法分析也勝任不了。在使用yacc之前,需要了解上下文無關文法,這部分內容太多太雜,我也只瞭解部分簡單的概念,有興趣的可以看一看編譯原理深入瞭解。

目前語法分析的方法有兩大類,即自下向上的分析方法和自上而下的分析方法。所謂自上而下的分下法就是從文法的開始符號出發,根據文法規則正向推到出給定句子的一種方法,或者說,從樹根開始,往下構造語法樹,直到建立每個樹葉的分析方法。代表演算法是LL(1),此演算法文法解析能力不強,對文法定義要求比較高,主流的編譯器都沒有使用。自下而上的分析法是從給定的輸入串開始,根據文法規則逐步進行歸約,直至歸約到文法的開始符號,或者說從語法書的末端開始,步步向上歸約,直至歸約到根節點的分析方法。代表演算法有SLR、LRLR,ply使用的就是LRLR。

因此我們只需要定義文法和規約動作即可,以下就是完整的程式碼。

 

直接執行檔案即可,得到的輸出如下,之後就可以根據線性代數的方法求解各個變數的值

總結

依託於python簡潔的語法,ply為我們提供了一個強大的語法分析工具,更復雜的例子可以參考https://github.com/LiuRoy/proto_parser,這是我用ply實現的一個簡單的protobuf解析器,用於減少頻繁的中間檔案生成。有這種神器,一顆賽艇!

打賞支援我寫出更多好文章,謝謝!

打賞作者

打賞支援我寫出更多好文章,謝謝!

python開發編譯器

相關文章