譯文來源:Shun-Yuan Chou 的部落格(原譯文為繁體,大部分術語已轉換成大陸譯法,可能少數術語有遺漏)
早期在 PC 上寫模擬器的牛人,Marat Fayzullin 是其中之一。1997 年,他就已經開發出 fMSX 模擬器,並且以這篇文章《How to write a computer emulator?》分享他的知識。中文翻譯的網頁已經不存在了,可惜。
下面是閱讀後的整理:
綱要:
●什麼可以被模擬?
●什麼是 emulation,它跟 simulation 有什麼不同?
●模擬有專利的硬體,是合法的嗎?
●什麼是直譯式的模擬器,跟編譯式的模擬器有何不同?
●我想寫一個模擬器,我該從何開始?
●我該用哪一種程式語言?
●我從哪裡可以得到想模擬的硬體的資訊?
實現:
●如何模擬一個 CPU?
●如何存取被模擬的記憶體?
●週期性的運作有哪些?
程式技巧:
●如何優化 C 程式碼?
●什麼是高低位元組順序?
●如何讓程式具可移植性?
●為何我要模組化我的程式?
什麼可以被模擬?
基本上,任何東西有微處理器在裡面,就可模擬。當然,只有那些可以跑程式裝置,我們才有興趣模擬。包括:電腦、計算機、遊樂器、大型電動、其他……
必須特別註明,你可以模擬任何電腦系統,即是事非常複雜的系統(譬如 Amiga 電腦),但是執行效率可能很低。
什麼是 Emulation,它跟 Simulation 有什麼不同?
Emulation 模擬裝置內部的硬體,Simulation 是模擬裝置內部的功能。舉例來說,一個程式模擬小精靈大型電動的硬體,然後執行小精靈的 ROM,就是個 emulator。一個小精靈的 PC 遊戲,就是個 simulator。
模擬有專利的硬體,是合法的嗎?
這是個灰色地帶,只要你不是透過不合法的管道,拿到硬體的資訊,就應該不違法。但是很清楚知道,跟模擬器一起散佈有著作權的系統 ROM(例如 BIOS),是違法的。
什麼是直譯式的模擬器,跟編譯式的模擬器有何不同?
模擬器有三種設計的方式,這些設計也可以混用,來達到最好的效果。
直譯式
模擬器一個位元又一個位元的,從記憶體讀取程式碼,然後解碼,執行對應的暫存器、記憶體、輸出入的命令。通用的演演算法如下:
1 2 3 4 5 |
while(CPUIsRunning) { Fetch OpCode Interpret OpCode } |
這種設計的好處是,容易除錯,容易移植,容易同步(你只需要計算過了多少 CPU 週期,然後讓你模擬的其他部份,跟 CPU 同步)。
這種設計明顯的弱點,就是執行效率很差。執行直譯會花很多 CPU 時間,你會需要很快的電腦,才能有不錯的執行速度。
靜態編譯式
這種技術,就是把一支你要模擬的系統的程式碼,編譯成你的電腦的的組合語言。編譯的結果,通常是一支你的電腦的普通執行檔,不需要額外的工具就可以執行。靜態編譯,聽起來很美好,但通常不可行。例如,你就無法靜態編譯會自我修改的程式碼,因為這種程式碼只有執行時,才會知道內容是什麼。為瞭解決上述的問題,或許需要混用直譯器,或是動態編譯編譯器。
動態編譯式
動態編譯基本上跟靜態編譯一樣,但動態編譯發生在程式執行時。動態編譯是在執行到 CALL 或 JUMP 時才編譯,取代一開始就編譯一整個程式。為了增加執行效率,這種技術常常結合靜態編譯。你可以讀,動態編譯式麥金塔模擬器的作者 Ardi,的這篇動態編譯白皮書學到更多
我想寫一個模擬器,我該從何開始?
想要寫一個模擬器,你必須懂程式設計,以及數位電子。如果懂得組合語言,會更好。
1. 選一種程式語言
2. 找到所有被模擬硬體的所有資訊
3. 寫 CPU 模擬,或是選用一個現成的 CPU 模擬程式
4. 寫個粗略的其他周邊硬體的模擬,至少要一部分
5. 在這個時候,寫個內建除錯器,讓你可以暫停模擬,檢查程式執行的結果。你也會需要一個被模擬 CPU 的組合語言反組譯器。如果找不到現成的,就自己寫一個。
6. 試著用你的模擬器執行程式
7. 用除錯程式跟反組譯器,看看程式到底在幹麼,然後根據此修改你的模擬器
我該用哪一種程式語言?
最常被用到是 C 跟組合語言,各有優缺點。
彙編
+ 通用,可以產生速度快的程式碼
+ 可以直接使用暫存器,來對映被模擬的暫存器
+ 很多組合語言指令,可以對應到被模擬的組合語言指令
– 程式是不可移植的,換句話說,你的模擬器,不能在別種 CPU 上跑
– 很難除錯跟維護
C 語言
+ 可移植性,所以可以在不同的作業系統上跑
+ 相對容易除錯跟維護
+ 對硬體的不同假設,可以很快的測試
– 通常 C 語言的程式比組合語言的程式慢
要寫模擬器,對所選擇的語言,瞭解得很透徹,是絕對必要的。因為模擬器的程式很複雜,你要優化你的模擬器,讓它跑得越快越好。電腦模擬器程式,絕對不是你越來學習程式語言的專案。
我從哪裡可以得到想模擬的硬體的資訊?
下列地方,你會想去看一看:
●網路新聞群組
comp.emulators.misc
這個新聞群組,討論模擬器一般的問題。許多模擬器作者會訂閱,雖然裡面雜音很多。如果要貼問題到這個新聞群組,記得先看 c.e.m FAQ 常見問題。
comp.emulators.game-consoles
跟 comp.emulators.misc 一樣,不過這個新聞群組,專攻電視遊樂器的模擬器。如果要貼問題到這個新聞群組,記得先看 c.e.m FAQ 常見問題。
comp.sys./emulated-system/
comp.sys.* 新聞群組階層,專攻特定的電腦系統。你閱讀這些新聞群組,可以得到有用的技術資料。典型的例子:
1 2 3 |
com.sys.msx MSX / MSX2 / MSX2+ / TurboR 電腦 comp.sys.sinclair Sinclair ZX80/ZX81/ZXSpectrum/QL comp.sys.apple2 Apple ][ |
如果要發問題到這個新聞群組,記得先看 FAQ
alt.folklore.computers
rec.games.video.classic
FTP
如何模擬一個 CPU?
首先,如果你需要模擬一個標準的 Z80 或 6502 CPU,你可以使用 Marat Fayzullin 所寫的 CPU 模擬器 當然有些限制。
對那些想要自己寫 CPU 模擬核心,或是對其中的運作原理感性趣的人,我提供一個用 C 寫的範例架構如下,在真正的實做,你或許會考慮略過其中部份,或新增新的部份。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
Counter=InterruptPeriod; PC=InitialPC; for(;;) { OpCode=Memory[PC++]; Counter-=Cycles[OpCode]; switch(OpCode) { case OpCode1: case OpCode2: ... } if(Counter<=0) { /* Check for interrupts and do other */ /* cyclic tasks here */ ... Counter+=InterruptPeriod; if(ExitRequired) break; } } |
首先我們指定 CPU 週期記數器 (Counter),以及指令位址記數器 (PC)
1 2 |
Counter=InterruptPeriod; PC=InitialPC; |
Counter 紀錄了到下一次系統中斷髮生,還剩多少個 CPU 週期。注意當 Counter 過其實,系統中斷不必然發生。你可以利用他來處理其事情:像是時鐘同步,更新螢幕的掃瞄線等。等等,我們會討論這些。PC 則紀錄了CPU 會從那個記憶體位址,讀取下次的執行的指令。
在我們給這些設定初始值之後,然後開始進入主迴圈:
1 2 |
for(;;) { |
主迴圈也可以寫成這樣:
1 2 |
while(CPUIsRunning) { |
CPUIsRunning 是個布林值,這樣寫有個好處,你可以在任何時候,設 CPUIsRunning=0,來終止主迴圈。然而在每個迴圈檢查這個變數,會花不少的 CPU,而我們應該儘量減少花費 CPU。同時,不要寫成下面這樣子:
1 2 |
while(1) { |
因為這樣寫,編譯器產生程式碼,去檢查 1 為 “真” 或 “假”,你不會希望在主迴圈的每個迴圈,都去執行這多餘的動作。
現在我們在主迴圈內,第一件事,就是去讀下一個執行碼,然後修改程式位址記數器。
1 |
OpCode=Memory[PC++]; |
注意,這是最簡易的方式,來模擬讀取記憶體,但並非永遠可行。更通用的方式,來存取記憶體,稍後會提到。
在提取操作碼後,會從 CPU 週期計數器,扣掉這個指令所需的週期數。
1 |
Counter-=Cycles[OpCode]; |
Cycles[] 表內放的是每個操作碼,所需要的週期數。要特別注意,有些指令(例如條件式跳躍,或是呼叫副程式),需要的週期數,是跟操作後面緊接的引數而變動。這個可以在執行指令碼時調整。
現在該是解譯操作碼,然後跟著執行的時候了:
1 2 |
switch(OpCode) { |
有一個錯誤的觀念,認為 switch 語句是沒有效率的,因為會被編譯成 if () …… else if () …….. 語句。這隻有在 case 數量很少的 switch 語句,才會被這樣編譯。當有 100 到 200 個 case 的時候,switch 語句通常會被翻譯成 jump 表格,jump 表格,其實蠻有效率的。
有其他兩種替代方案,可以用來解譯操作碼。第一種方法,是建一個函式表,然後呼叫對應的函式。這種方式,比用 switch() 沒效率,因為呼叫函式,有額外的開銷。第二種方式,是建一個位址的表格,然後使用 goto 語句。這種方式,稍比用 switch() 有效率一點,但這種方式,只適合用在編譯器支援未預定位址表格。其他的編譯器,不會允許你這樣定義表格。
在成功解譯並執行一個操作碼後,這時候該去檢查有沒有任何系統中斷髮生。這時候,你也可以執行任何需要跟系統時鐘同步的工作。
1 2 3 4 5 6 7 |
if(Counter<=0) { /* Check for interrupts and do other hardware emulation here */ ... Counter+=InterruptPeriod; if(ExitRequired) break; } |
有關週期性的工作,後面會提到。
注意,我們並非直接指定 Counter=InterruptPeriod,而是執行 Counter+=InterruptPeriod,這樣會讓週期的計算更精確,因為有時候,Counter 會變成負數。
同時,注意這
1 |
if(ExitRequired) break; |
這個語句如果在每個迴圈都執行,成本太高,所以只有在中斷髮生時才檢查。這樣就可以在 ExitRequired=1 時,停止模擬,但又不會花太大的成本。
如何存取被模擬的記憶體?
模擬記憶體存取最簡單的方式,就是把它當成一個攤平的位元組或字元組陣列。如此,存取記憶體,就是一件微不足道的事情:
1 2 |
Data=Memory[Address1]; /* Read from Address1 */ Memory[Address2]=Data; /* Write to Address2 */ |
這種簡易的作法,並非永遠可行,原因如下:
●分頁式的記憶體 ?記憶體空間,可能被切成小塊,變成可以切換的頁,就是所謂的 banks。例如常見的,小記憶體位址空間( 64 KB),所使用的擴充記憶體。
●對映的記憶體 ?這塊記憶體空間,可以用數個不同的位址來存取。例如你寫資料到位址 $4000,然後你在位址$6000,及位址 $8000,你也可以讀到。
●ROM 的讀取保護 ?有些存到卡夾的軟體(例如 MSX 的遊戲),就算你寫到 ROM,回傳成功,事實上 ROM 上的資料也不會改變。這麼做,是為了做軟體保護。為了讓這樣的軟體,可以在你的模擬器執行,你需要把 ROM 設成唯讀。
●記憶體對映到 I/O ?系統可能有 I/O 裝置,對映到記憶體位址。存取這樣的記憶體位址,會產生特殊效果,所以必須被追蹤。
要成功處理上述問題,我們引進幾個函式:
1 2 |
Data=ReadMemory(Address1); /* Read from Address1 */ WriteMemory(Address2,Data); /* Write to Address2 */ |
所有特殊的處理,包括記憶體分頁,記憶體對映,I/O 的處理,等等,都在函式內處理。
ReadMemory() 跟 WriteMemory() 對模擬器造成很大的 CPU 負擔,因為它們執行的非常頻繁。因此這些函式必須寫得越有效率越好。這裡有一個存取分頁式記憶體的例子:
1 2 3 4 5 6 7 8 |
static inline byte ReadMemory(register word Address) { return(MemoryPage[Address>>13][Address&0x1FFF]); } static inline void WriteMemory(register word Address,register byte Value) { MemoryPage[Address>>13][Address&0x1FFF]=Value; } |
注意那個 inline 關鍵字,它會指示編譯器,直接把這些函式碼,直接插入程式中,以取代函式呼叫。如果你的編譯器,不支援 inline 或是 _inline,試著改把這些函式,宣告成 static,有些編譯器(例如 Watcom C)優化時,會把短的函式,變成 inline 函式。
同時要記住,通常 ReadMemory() 的呼叫次數,是 WriteMemory() 的好幾倍。所以儘量把程式碼放到 WriteMemory(),讓 ReadMemory() 保持簡單。
關於記憶體對映的一個小註記:
之前說過,被對映的記憶體,寫入一個位址,可以在其他位址讀取。這個功能,可以實做在 ReadMemory(),但是通常我們不這樣做,因為 ReadMemory() 比 WriteMemory() 更頻繁被呼叫。更有效率的方式,是實做記憶體對映到 WriteMemory()函式。
週期性的運作有哪些?
週期性的運作,是被模擬的機器,固定一段時間,就會執行的工作,例如:
- 螢幕更新
- VBlank 跟 HBlank 系統中斷
- 更新時鐘
- 更新聲音引數
- 更新鍵盤跟搖桿狀態
- 其他
為了要模擬這樣的運作,你要替它們綁上固定的週期。例如 CPU 假設以 2.5 MHz,並且以 50 Hz 更新顯示(PAL 系統),所以 VBlank 系統中斷,就會每 5000 CPU 週期,發生一次。
2500000/50 = 50000 CPU cycles
現在,假設整個螢幕是(包含 VBlank)是 256 條掃瞄線,實際上只有 212 條顯示(44 條在 VBlank),我們得到一條掃瞄線 195 個 CPU 週期,更新一次。
50000/256 ~= 195 CPU cyles
然後,我們應該產生一個 VBlank 系統中斷,然後在 VBlank 期間不做任何事情。
(256-212)*50000/256 = 44*50000/256 ~= 8594 CPU cycles
小心計算每個週期性運作所需的 CPU 週期,然後使用他們的最大公約數,作為中斷檢查的週期,然後繫結給每個週期性運作。
如何優化 C 程式?
首先,很多執行效率的增進,只要選對編譯器的編譯選項,就有了。根據我的經驗,下面的編譯選項,可以給你的最佳的執行速度:
1 2 3 |
Watcom C++ -oneatx -zp4 -5r -fp3 GNU C++ -O3 -fomit-frame-pointer Borland C++ |
如果你發現,這三個編譯器,更好的優化引數,或是其他的編譯器的優化引數,請讓我知道。
●一些關於把迴圈攤平的筆記
雖然說,把迴圈攤平的這個優化選項,看起來是有用的。這個選項,會把短的迴圈,攤平成線性的語句。但我的經驗告訴我,開啟這個選項,執行效率並不會提升太大,反而在某些情況下,程式反而會出現異常。
優化 C 程式碼,比選擇編譯器選項,還難搞。跟執行你的程式的 CPU 有很大關係。有一些通用的規則,可以適用在所有 CPU。但別把它們當成真理。
●使用分析程式
用分析工具來執行你的程式(第一個就想到 GPROF),或許可以發現你從沒懷疑的神奇事情。你會發現毫不起眼的程式,頻繁的被執行,拖慢整個程式。優化這些程式碼,或是用匯編語言改寫,可以讓你的程式執行效率飛耀。
●不要用 C++
不要用任何非用 C++ 不可的架構。C++ 跟純 C 比起來,額外的開銷比較大。
●整數的型別
儘量用你的 CPU 支援的整數型別。舉例 int 對比 short 或 long,這會減少編譯器產生不同整數行別的轉換。
●暫存器配置
儘量減少在程式區塊配置太多變數,並且宣告他們為 register (大部分的編譯器已經會自動把變數變成 register)。特別是有很多通用暫存器的 CPU (PowerPC)這個優勢,就比有專屬暫存器(Intel 8086)來的強。
●攤平小迴圈Unroll small loops
如果你剛好有小迴圈會執行好幾次,把小迴圈攤平成線性執行的程式,是好主意。對照前面提到的編譯器自動攤平選項。
●算術移位 vs. 乘除法
儘量用算術移位,如果你乘或除一個數是 2 的 n 次方(J/128==J>>7),算術移位在大多數的 CPU 都比較快。另外用位元的 & 來求餘數(J%128==J&0x7F)。
什麼是高低位元組順序?
所有的 CPU 通常都根據它們如何儲存資料到記憶體,分為幾個等級。除了非常特殊的種類,絕大多數的 CPU 分成兩個等級:
High-endian CPU 先存放 higher byte of word。例如,在這樣的 CPU 你存放 0x12345678,記憶體的內容會長像這樣:
1 2 3 4 |
0 1 2 3 +--+--+--+--+ |12|34|56|78| +--+--+--+--+ |
Low-endian CPU 先存放 lower byte of word。上述了例子,記憶體內容會看起來完全不一樣。
1 2 3 4 |
0 1 2 3 +--+--+--+--+ |78|56|34|12| +--+--+--+--+ |
典型 High-endian 的 CPU 有 6809,摩羅托拉 680×0 系列,PowerPC,及昇陽的 SPARC。Low-Endian 的 CPU 有 6502,及其後代 65816,及 zilog Z80,絕大多數 Intel CPU (8086,8088),DEC alpha 等。
當我們寫模擬器時,必須注意到,你模擬的 CPU,及執行你的模擬器的 CPU 的高低位元組。舉例,我們想要模擬 low-endian 的 Z80,Z80 會先存 lower byte of word。如果你用的也是 low-endian 的 CPU,例如 intel 8006,那麼完全不需要特別處理。但是如果你用的是 high-endian 的 CPU,例如 PowerPC,這時候,要存放 16 bit 的 Z80 資料到記憶體,就會有問題。如果你的程式,必須兩種高低位元組順序的 CPU 都能跑,問題就更復雜了。
一種解節高低位元組順序的作法如下:
1 2 3 4 5 6 7 8 9 10 11 12 |
typedef union { short W; /* Word access */ struct /* Byte access... */ { #ifdef LOW_ENDIAN byte l,h; /* ...in low-endian architecture */ #else byte h,l; /* ...in high-endian architecture */ #endif } B; } word; |
可以看到,可以用 w 存取整個位元組。而每次如果你需要存取個別 byte,用 B.l 及 B.w,來對應高低位元組。
如果你的程式,要在跨平臺編譯,在程式開始執行前,你也許會想要測試,是否編譯有設定正確的 endian 旗標。這裡有如何測試的程式碼。
1 2 3 4 |
int *T; T=(int *)"\01\0\0\0\0\0\0\0\0\0\0\0\0\0\0\0"; if(*T==1) printf("This machine is high-endian.\n"); else printf("This machine is low-endian.\n"); |
如何讓程式具可移植性?
尚未撰寫。
為何我要模組化我的程式?
大多數的計算機系統,是由幾塊比較大的晶片所組成,各自執行一部分的系統功能。有 CPU、顯示控制器、聲音產生器、及其他。有些晶片,有自己的記憶體,及周邊的硬體。
一個典型的模擬器,應該重現原有的系統設計,並實做每個子系統的功能,在不同的模組。這樣做,首先除錯會比較容易,因為問題會被獨立在各自的模組裡。其次模組化,可以讓你在別的模擬器,重複使用你的模組。電腦的硬體,其實標準化成度很高,你可以在不同型號的電腦,發現相同的 CPU,相同的顯示控制器。為某個晶片,模組化寫一次模擬的程式,會比你每次都重寫來的容易。
(翻譯完畢)