MYSQL伺服器接收SQL格式的查詢,首先要對sql進行解析,內部將文字格式轉換為二進位制結構,這個轉換就是解析器,解析的目的是為了讓最佳化器更好的處理指令,以便以最優的路徑,最少的耗時返回我們想要的結果。
sql解析器的構成:
詞法分析(Lexical scanner):作用是將整個查詢分解為多個元素。
語法規則(Grammar rule module):尋找sql語法規則組合,產生一個序列,執行這些規則相關的程式碼。
1 and 2 產生一棵解析樹,提供給最佳化器使用。
mysql解析器的特殊性在於它直接轉換為程式記憶體中的內部解析的C/C++結構,而一般的解析器是將文字表示式轉換為位元組程式碼。
MySQL語法解析封裝在函式MYSQLparser中,包含兩個模組:詞法分析(Lexical scanner)和語法規則(Grammar rule module)。詞法分析將整個SQL語句打碎成一個個單詞(Token),而語法規則模組則根據MySQL定義的語法規則生成對應的資料結構,並儲存在物件THD->LEX結構當中。最後最佳化器,根據這裡的資料,生成執行計劃,再呼叫儲存引擎介面執行。詞法分析和語法規則模組有兩個較成熟的開源工具Flex和Bison分別用來解決這兩個問題。MySQL出於效能和靈活考慮,選擇了自行完成詞法解析部分,語法規則部分使用Bison。詞法解析和Bison溝通的核心函式是由詞法解析器提供的函式介面yylex(),在Bison中,必要的時候呼叫yylex()獲得詞法解析的資料,完成自己的語法解析。Bison的入口為yyparse(),在MySQL中定義為MYSQLParse。
1.1. 解析示意圖
Bison在做語法解析後,會將解析結果(解析樹/AST)儲存在THD::LEX中,透過儲存WHERE的資料結構來檢視語法解析的結果。
1.2. 解析樹的ITEM物件
在MYSQL中,有以下ITEM大型別:
FIELD_ITEM, FUNC_ITEM,
SUM_FUNC_ITEM,
STRING_ITEM,
INT_ITEM,
REAL_ITEM,
NULL_ITEM,
VARBIN_ITEM,
COPY_STR_ITEM,
FIELD_AVG_ITEM,
DEFAULT_VALUE_ITEM,
PROC_ITEM,COND_ITEM,
REF_ITEM,
FIELD_STD_ITEM,
FIELD_VARIANCE_ITEM,
INSERT_VALUE_ITEM,
SUBSELECT_ITEM,
ROW_ITEM,
CACHE_ITEM,
TYPE_HOLDER,
PARAM_ITEM
其中許多ITEM還有小類,如Item_func有如下小型別:
UNKNOWN_FUNC,
EQ_FUNC,
EQUAL_FUNC,
NE_FUNC,
LT_FUNC,
LE_FUNC,
GE_FUNC,
GT_FUNC,FT_FUNC,
LIKE_FUNC,
NOTLIKE_FUNC,
ISNULL_FUNC,
ISNOTNULL_FUNC,
COND_AND_FUNC,
COND_OR_FUNC,
COND_XOR_FUNC,
BETWEEN, IN_FUNC,
INTERVAL_FUNC,
ISNOTNULLTEST_FUNC,
SP_EQUALS_FUNC,
SP_DISJOINT_FUNC,
SP_INTERSECTS_FUNC,
SP_TOUCHES_FUNC,
SP_CROSSES_FUNC,
SP_WITHIN_FUNC,
SP_CONTAINS_FUNC,
SP_OVERLAPS_FUNC,
SP_STARTPOINT,
SP_ENDPOINT,
SP_EXTERIORRING,
SP_POINTN,
SP_GEOMETRYN,
SP_INTERIORRINGN,
NOT_FUNC,
NOT_ALL_FUNC,
NOW_FUNC,
VAR_VALUE_FUNC
1.3. ITEM語法樹
1.4. FIELD 型別
enum enum_field_types {
MYSQL_TYPE_DECIMAL, MYSQL_TYPE_TINY,
MYSQL_TYPE_SHORT,MYSQL_TYPE_LONG,
MYSQL_TYPE_FLOAT,MYSQL_TYPE_DOUBLE,
MYSQL_TYPE_NULL,MYSQL_TYPE_TIMESTAMP,
MYSQL_TYPE_LONGLONG,MYSQL_TYPE_INT24,
MYSQL_TYPE_DATE, MYSQL_TYPE_TIME,
MYSQL_TYPE_DATETIME,MYSQL_TYPE_YEAR,
MYSQL_TYPE_NEWDATE,
MYSQL_TYPE_ENUM=247,
MYSQL_TYPE_SET=248,
MYSQL_TYPE_TINY_BLOB=249,
MYSQL_TYPE_MEDIUM_BLOB=250,
MYSQL_TYPE_LONG_BLOB=251,
MYSQL_TYPE_BLOB=252,
MYSQL_TYPE_VAR_STRING=253,
MYSQL_TYPE_STRING=254,
MYSQL_TYPE_GEOMETRY=255
};
1.5. FIELD和ITEM的關係
透過Item類中的tmp_table_field_from_field_type函式將一個Item類轉化為一個Filed類返回,例如
Item_int ->Field_longlong
Item_real->Field_double
Item_string->Field_string
1.6. Bison語法中的WHERE
select_from ==>
|
|---->from
join_table_list
where_clause
|
|---->expr or expr
|---->expr amd expr
|---->……………………
|---->simple_expr comp_op simple_expr
group_clause having_clause
opt_order_clause
opt_limit_clause
where 要點:
where_clause:
/* empty */ {}
| WHERE expr
{
THD->lex->current_select->where = $2
}
expr:
...
| expr and expr
{
$$ = new (YYTHD->mem_root) Item_cond_and($1, $3)
}
|ident comp_op NUM /*簡化版*/
{
$$ = new Item_func_ge(a, b); /*簡化版*/
}
透過解析就能生成where的語法樹。
Where解析樹的分支:如圖
1.7. 總結
解析器的最終執行結果就是解析樹,sql語法的複雜性要求具有同樣複雜程度的結構,透過這種結構有效儲存用於執行每個可能使用到的sql語句所需的資訊。
解析樹中重要的兩個物件【enum_sql_command和select_lex】, sql_command顯示sql型別,execute_command則指導呼叫相關函式。透過核心級別的呼叫,最終生成解析樹,提供給最佳化器,最終完成我們的操作指令。
[1] OReilly Understanding MySQL Internals
[2] MySQL核心:InnoDB儲存引擎
[3] OReilly
[4]《lex與yacc》(第二版)
[5]《flex與bison》(第二版)
[6] Bison操作手冊: http://www.gnu.org/software/bison/manual/bison.html