C++模板”>>”編譯問題與詞法消歧設計

發表於2017-01-06

在編譯理論中，通常將編譯過程抽象為5個主要階段：詞法分析(Lexical Analysis)，語法分析(Parsing)，語義分析(Semantic Analysis)，優化(Optimization)，程式碼生成(Code Generation)。這5個階段類似Unix管道模型，上一個階段的輸出作為下一個階段的輸入。其中，詞法分析是根據輸入原始碼文字流，分割出詞，識別類別，產生詞法元素(Token)流，如：

int a = 10;

1	int a = 10;

經過詞法分析會得到[(Type, “int”), (Identifier, “a”), (AssignOperator, “=”), (IntLiteral, 10)]，在後續的語法分析階段，就會根據這些詞法元素匹配相應的語法規則。在我學習編譯原理時，教科書中對於詞法分析的介紹主要是基於正規表示式的，言下之意就是普通語言的詞法規則是可以通過正規表示式描述的。比如，C語言的變數名規則是“包含字母、數字或下劃線，並且以字母或下劃線開頭”，這就可以用正規表示式[a-zA-Z][a-zA-Z0-9]*表達。但是，在實踐中我發現不管是主流語言，還是自己設計的DSL都大量存在不能簡單通過正規表示式進行詞法分析的例子。來看C++98的模版例子：

map<int, vector<int>>

1	map<int, vector<int>>

上面這段程式碼會被C++98編譯器中報語法錯誤，原因在於它把“>>”識別成了位右移運算子而不是兩個模版右括號，在C++98中必須在兩個括號中間加空格，寫成

map<int, vector<int> >

1	map<int, vector<int> >

除此了C++模版，據我所知，經典的FORTRAN語言的語法規則更是大量存在詞法歧義。

我認為從本質上講，這類問題的根源在於詞法分析的依據只是簡單的詞法規則，並不具備所有的語法資訊，而詞法歧義必須提升一層在語法規則中消除。所以，在我自己設計一些DSL的時候乾脆就把詞法分析和語法分析合二為一了，相當於讓語法分析在字元層次上去進行，而不是經典的詞法元素層次上，這就是所謂的Scannerless Parsing。採用這種方法的例子並不少見，TeX, Wiki, Makefile和Perl 6等語言的語法分析器都屬此類。

Scannerless Parsing方法彌補了詞法規則無法消歧的問題，但是同時也破壞了詞法和語法分析簡單清晰的管道結構，總體上增加了實現和理解的複雜度。另外，像C++ 這樣大型的語言，如果開始是有詞法分析的，稍微碰到一個歧義就整個轉成Scannerless Parsing未免也顯得太誇張了。這個問題困擾了我很久，直到最近才找到了一個滿意的解決方案。還是以上面”>>”為例，我們知道現在 C++11已經允許不加空格了，那麼C++11編譯器是如何處理這個詞法歧義的呢？答案是：詞法分析階段既然分析不好”>>”，乾脆就不分析了，直接把”>” “>”交給語法分析器來分析，其他沒有詞法歧義的照舊。當我知道這個方案的時候不由得感嘆：妙！理論上，詞法分析是可以什麼也不做的，全部把字元一一交給語法分析器也沒有問題，所以，乾脆讓詞法分析只做有把握的部分，解決不了的交給語法分析器，這樣就既保留了管道結構，又解決了詞法歧義。

下面我們再來看看C++11規範關於這個問題的定義：

14.2 Names of template specializations [temp.names] ###
After name lookup (3.4) finds that a name is a template-name or that an operator-function-id or a literal-operator-id refers to a set of overloaded functions any member of which is a function template if this is followed by a <, the < is always taken as the delimiter of a template-argument-list and never as the less-than operator. When parsing a template-argument-list, the first non-nested > is taken as the ending delimiter rather than a greater-than operator. Similarly, the first non-nested >> is treated as two consecutive but distinct > tokens, the first of which is taken as the end of the template-argument-list and completes the template-id. [ Note: The second > token produced by this replacement rule may terminate an enclosing template-id construct or it may be part of a different construct (e.g. a cast).—end note ]

可見，在C++11中，詞法分析器是把”>>”直接當成兩個”>”傳給了語法分析器，然後在語法分析中如果匹配了template- argument-lis語法，第一個”>”符號會被直接認為是模版結束符，而不是大於，也不是位移符號。根據這個定義，我構造了一個例子：

template<int N> 
class Foo { 
}; 
  
Foo<3>>1> foo;

template<int N>

class Foo {

};

Foo<3>>1> foo;

這個例子在C++98中是能正確編譯的，”>>”被解釋成了位移運算，但是它反而不能在C++11中編譯了，因為根據規範第一個”>”被解釋成了模版引數結束符。如果要在C++11中編譯，需要顯式地加上括號：

Foo<(3>>1)> foo;

1	Foo<(3>>1)> foo;

c++模板類的使用，編譯的問題
2021-12-21
C++編譯
現代c++與模板超程式設計
2019-08-02
C++程式設計
Go編譯原理系列3（詞法分析）
2022-01-02
Go編譯原理詞法分析
【水汐の編譯原理】詞法分析器課題1
2020-10-02
編譯原理詞法分析
matlab中出現mex無法編譯的問題
2020-10-04
Matlab編譯
【編譯原理】手工打造詞法分析器
2024-03-28
編譯原理詞法分析
libmemcached編譯問題
2022-04-19
IBM編譯
SPI編譯問題
2020-12-22
編譯
用Java寫編譯器（1）- 詞法和語法分析
2020-09-02
Java編譯語法分析
matlab編譯exe問題具體解決辦法
2018-03-09
Matlab編譯
精讀《手寫 SQL 編譯器 - 詞法分析》
2018-07-09
SQL編譯詞法分析
精讀《手寫 SQL 編譯器 – 詞法分析》
2019-03-04
SQL編譯詞法分析
長文編譯：RTS遊戲系統設計的平衡問題
2021-10-27
編譯遊戲
【問題記錄】—.NetCore 編譯問題
2020-10-28
NetCore編譯
Go編譯原理系列2（詞法分析&語法分析基礎）
2021-12-23
Go編譯原理詞法分析語法分析
【C++ 泛型程式設計01：模板】函式模板與類别範本
2023-02-05
C++泛型程式設計函式
C++提高程式設計-模板
2024-11-18
C++程式設計
我擦遇到個大坑啊 C和C++混合編譯問題
2018-06-21
C++編譯
Java 實現《編譯原理》簡單詞法分析功能
2019-06-13
Java編譯原理詞法分析
Vue 模板編譯原理
2018-03-15
Vue編譯原理
模板引數，模板分離編譯
2018-08-08
編譯
Python 的編譯器geany-1.36無法下載問題
2020-02-20
Python編譯
【譯】Googler如何解決程式設計問題
2019-04-10
Go程式設計
前端面試-模板編譯
2021-10-18
前端面試編譯
模板函式編譯原理
2021-01-03
函式編譯原理
golang windows10下 go build 無法編譯問題解決
2019-01-14
GolangWindowsUI編譯
記一次Razor Pages無法編譯問題及解決
2024-09-30
編譯
編譯原理——C++版桌面計算器
2021-01-02
編譯原理C++
VS設定 LLVM-Clang 編譯器進行編譯C++專案
2024-08-07
LVM編譯C++
ZBlogPHP主題模板的編譯檔案不存在
2024-08-25
PHP編譯
go的編譯優化問題
2018-11-12
Go編譯優化
nginx 編譯出現的問題
2018-03-02
Nginx編譯
Gradle 編譯警告亂碼問題
2024-07-15
Gradle編譯
小C語言--詞法分析程式（編譯原理實驗一）
2018-09-22
C語言詞法分析編譯原理
LevelDB C++教程: Linux下編譯與安裝
2018-12-10
C++Linux編譯
vscode 自定義c++標頭檔案，編譯過程中遇到的問題
2021-08-01
VSCodeC++編譯
Android編譯通過，執行編譯錯誤問題總結
2019-06-24
Android編譯
vue模板編譯（原理篇）
2020-03-11
Vue編譯
C++ 編譯過程
2024-08-15
C++編譯

C++模板”>>”編譯問題與詞法消歧設計

相關文章