深入V8引擎-列舉+位運算實現引數配置

書生小龍發表於2019-06-25

不知不覺都快月底了,看了看上一篇還是6號寫的,慚愧慚愧,說好的堅持。為了證明沒有偷懶(其實還是沉迷了一會dota2),先上一個圖自證清白。

基本上從初始化引擎,到Isolate、handleScope、Context一直到編譯其實都有記錄,但是實在是無從下手。雖說我的部落格也沒有什麼教學意義,但是至少也需要有一箇中心和結論。很遺憾,上述的每一步都並互有關聯,也就是單獨拿出來寫毫無意義。而從整體架構來闡述,然後細化到這每一步,我又還沒有到那個境界。因此,綜合考慮下,決定先暫時放棄逐步解析,優先產出一些有意義的東西。

這一篇的內容屬於V8中(或許是C++獨有)使用比較普遍的一個技巧,很多模組都有使用。

當初在入門學JS的時候,到了ajax那裡,跟著視訊學封裝。老師講,如果引數過多,就包裝成封裝一個物件,這樣只需要一個引數就可以了。當時我想著,一個物件也好麻煩啊,還不如封裝的時候自己定義一下,如果傳1,就代表是"GET"請求,傳2,就代表"POST"等等。沒想到,當初天真的想法,竟然在C++裡面實現了。

 

下面開始正文,首先需要簡單介紹一下列舉,話說各位用過TS的大佬應該都懂,或者接觸過protobuf這些資料格式化庫也有。列舉在很多語言中都有,定義簡單說就是一系列的常量集合,通常用來做簡單配置。如果沒有指定值,那麼就是0、1、2...依次增加,舉例如下。

enum fruit {
  apple,
  banana,
  pear,
  orange = 5,
};

int main(int argc, const char * argv[]) {
  cout << "enum apple is " << fruit::apple << endl;
  cout << "enum banana is " << fruit::banana << endl;
  cout << "enum pear is " << fruit::pear << endl;
  cout << "enum orange is " << fruit::orange << endl;
  return 0;
}

這裡我們定義了一個列舉型別,依次列印每一個值,會得到0、1、2,而第四個由於手動指定了值,所以會得到5。如果不去手動指定值,從JS的角度來看列舉有點類似於一個顛倒形式的陣列,比如說定義['apple', 'banana', 'pear'],通過下標0、1、2可以取到對應的值,而列舉恰恰相反,通過列舉值取到的是"下標"。大部分簡單的配置情況下,是不用去關心列舉具體的值。這樣,關於列舉就介紹完了,很簡單。

接下來,來看看V8是如何利用這個資料型別來實現引數配置。在對JS原始碼字串的編譯過程中,有一個類十分重要,負責記錄String => AST的過程,名為ParseInfo,這裡不去探究轉換過程,單純看一下這個類的標記配置相關,類定義如下。

namespace v8 {
namespace interval {

// A container for the inputs, configuration options, and outputs of parsing.
/**
 * 有5個建構函式和大量私有屬性
 */
class ParseInfo {
  public:
    explicit ParseInfo(AccountingAllocator* zone_allocator);
    explicit ParseInfo(Isolate*);
    ParseInfo(Isolate*, AccountingAllocator* zone_allocator);
    ParseInfo(Isolate* isolate, Handle<Script> script);
    ParseInfo(Isolate* isolate, Handle<SharedFunctionInfo> shared);
  private:
    // Various configuration flags for parsing.
    enum Flag {
      kToplevel = 1 << 0,
      kEager = 1 << 1,
      kEval = 1 << 2,
      kStrictMode = 1 << 3,
      kNative = 1 << 4,
      // ...more
    };
    unsigned flags_;
    void SetFlag(Flag f) { flags_ |= f; }
    void SetFlag(Flag f, bool v) { flags_ = v ? flags_ | f : flags_ & ~f; }
    bool GetFlag(Flag f) const { return (flags_ & f) != 0; }
};

省略了很多程式碼,這個類真的超級大,特別是建構函式,雖說內部走的Isolate那一個,但是變向的呼叫會走全套構造。目前只需要關心私有屬性列舉Flag和其相關的三個方法,Flag負責標記編譯的程式碼的一些特徵,比如說[native code]、module、IIFE、'strict mode'等等。

列舉Flag的定義有點意思,除去了正常的語義化集合,每一項都給了具體的值,依次為1、2、4、8...,後面會解釋原因。flags_就代表了整個Flag的配置,型別比較狗,只註明了一個無符號型別,大部門情況下編譯器會認為是一個unsigned int。剩下的三個方法則是根據引數來調整flag_的值,具體實現非常簡單,但是理解起來有點噁心,全是位運算。

如果要理解這個操作的原理,需要從二進位制的角度來理解,列舉型別的每一個值,其實代表的是二進位制的1、10、100、1000等等,所以flags_其實也需要從二進位制來理解,預設情況是一個全0的數。這樣再來看SetFlag方法,假設解析中發現字串"strict mode",此時需要呼叫SetFlag(Flag::kStrictMode)來設定引數,或運算表示只要有一個是1即置1,所以flags_的第4位會被置位1,值就變成了1000。

那麼GetFlag就很好理解了,傳入一個Flag列舉值,由於與運算需要兩個都是1才會為真,而傳入的總為1,所以只要flag_對應的位為1(即被設定過)就會返回真。

而SetFlag的過載方法則是一個擴充套件,當第二個引數為true時,使用與單引數一致。當第二個引數為false時,會將該位置0,也就是取消這個配置。

這樣,用一個數字就可以代表非常多的編譯引數。在應用時,直接取出數字對應位數的值,如果為1,說明該配置為真,否則為假,即簡單,又很高效。當然,這個方法的侷限性也很明顯,只能針對布林值的配置,如果是複雜型別那還是需要一個xxxoptions的類來管理。

 

因為實在太簡單了,所以我也懶得畫圖,應該能理解吧。

相關文章