組合語言1 - 什麼是組合語言?

陌尘(MoChen)發表於2024-08-09
  • 1. 什麼是組合語言?
    • 1.1. 組合語言的定義
    • 1.2. 組合語言與機器語言
      • 1.2.1. 相同點
      • 1.2.2. 不同點
  • 2. 組合語言的主要特點
  • 3. 組合語言的基本組成
  • 4. 彙編器
    • 4.1. 主要工作流程
    • 4.2. 常見的彙編器
      • 4.2.1. NASM(Netwide Assembler)
      • 4.2.2. MASM(Microsoft Macro Assembler)
      • 4.2.3. GAS(GNU Assembler)
      • 4.2.4. TASM (Turbo Assembler)
    • 4.3. 語法差異
      • 4.3.1. NASM 示例
      • 4.3.2. MASM 示例
      • 4.3.3. GAS 示例
    • 4.4. 總結

1. 什麼是組合語言?

1.1. 組合語言的定義

組合語言Assembly Language)是一種低階程式語言,與計算機硬體緊密相關。它使用助記符(mnemonics)來表示機器指令,這些助記符通常與特定的處理器架構(如 x86、ARM 等)相對應。組合語言直接對映到機器語言,因此能夠提供對硬體的精細控制,但同時也要求開發者對計算機架構有深入的理解。

1.2. 組合語言與機器語言

常見的誤解: 組合語言就是機器語言。

正確的理解:

  1. 組合語言不是機器語言,但他是最接近機器語言的計算機程式語言。
  2. 它使用人類容易理解的助記符(mnemonics)來表示機器指令,經過彙編器的編譯(翻譯)才能轉換成機器能理解和執行的二進位制程式碼(可執行檔案)。

組合語言(Assembly Language)機器語言(Machine Language) 都是與計算機硬體緊密相關的程式語言,但它們在表示形式和使用方式上有顯著的區別。以下是它們的相同點和不同點:

1.2.1. 相同點

  1. 硬體相關性: 兩者都與特定的計算機架構緊密相關,不同的處理器架構有不同的組合語言和機器語言。
  2. 底層特性: 兩者都直接操作計算機的暫存器和記憶體,能夠實現高效的程式碼執行。
  3. 控制能力: 兩者都能提供對硬體的精細控制,適用於系統程式設計和效能最佳化

1.2.2. 不同點

屬性 機器語言 組合語言
表示形式 由二進位制程式碼(0 和 1)組成,計算機硬體可以直接執行。 使用助記符(mnemonics)表示機器指令,人類可讀,需要透過彙編器轉換為機器語言。
可讀性 人類難以理解,計算機很容易理解。 人類相對易於理解,計算機無法理解,需要彙編器的翻譯。
轉換過程 直接由計算機硬體執行。 需要透過彙編器將彙編程式碼轉換為機器語言,然後由計算機硬體執行。
示例對比 89C8;
對應 x86 架構的機器語言指令,表示將 ecx 的值移動到 eax
mov eax, ecx;
對應 x86 架構的組合語言指令,表示將 ecx 的值移動到 eax

2. 組合語言的主要特點

  • 低階特性: 組合語言直接操作計算機的暫存器和記憶體,能夠實現高效的程式碼執行。
  • 硬體控制: 開發者可以直接控制硬體資源,如暫存器、記憶體和外設。
  • 效能最佳化: 由於組合語言直接對映到機器指令,因此可以實現高度最佳化的程式碼,適用於對效能要求極高的應用場景。
  • 依賴架構: 不同的處理器架構有不同的組合語言,如 x86 彙編、ARM 彙編等。

3. 組合語言的基本組成

  • 指令(Instructions): 組合語言中的指令對應於機器語言中的操作碼(opcode),用於執行特定的操作,如資料傳輸、算術運算、邏輯運算等。
  • 運算元(Operands): 運算元是指令操作的物件,可以是暫存器、記憶體地址或立即數(常量)。
  • 標籤(Labels): 標籤用於標識程式碼中的特定位置,通常用於跳轉指令,實現程式的控制流。
  • 偽指令(Pseudo-instructions): 偽指令是彙編器提供的額外指令,用於輔助程式碼編寫,如定義資料、分配記憶體等。

4. 彙編器

彙編器(Assembler)是一種將組合語言程式碼轉換為機器語言程式碼的程式。組合語言是一種低階程式語言,它使用助記符(mnemonics)來表示機器指令,使得程式設計師能夠更容易地編寫和理解程式碼。彙編器的主要功能是將這些助記符轉換為計算機可以直接執行的二進位制程式碼。

4.1. 主要工作流程

彙編器的工作流程通常包括以下幾個步驟:

  • 詞法分析: 將原始碼分解成一個個的標記(tokens),如指令、運算元、標籤等。
  • 語法分析: 根據組合語言的語法規則,將這些標記組織成語法樹。
  • 語義分析: 檢查程式碼的語義是否正確,例如運算元的型別是否匹配,指令是否合法等。
  • 程式碼生成: 將語法樹轉換為機器語言程式碼,生成目標檔案。

使用匯編器的基本步驟如下:

  • 編寫彙編程式碼: 使用文字編輯器編寫組合語言程式碼,通常儲存為.asm檔案。
  • 彙編程式碼: 使用匯編器將.asm檔案轉換為機器程式碼,生成目標檔案(如.obj或.o檔案)。
  • 連結目標檔案: 使用連結器將目標檔案與庫檔案連結,生成可執行檔案。
  • 執行可執行檔案: 在目標平臺上執行生成的可執行檔案。

4.2. 常見的彙編器

NASMMASMGAS是三種最常見的彙編器,它們各有特點和適用場景。以下是它們的一些主要區別和特點:

4.2.1. NASM(Netwide Assembler)

  • 開源性: NASM是一個開源專案,原始碼可以自由獲取和修改。
  • 跨平臺: NASM支援多種平臺,包括Windows、Linux和macOS等。
  • 簡潔性: NASM的語法相對簡潔,沒有MASM中的一些複雜宏功能。
  • 靈活性: NASM提供了更多的輸出格式選項,可以生成多種目標檔案格式(如ELF、COFF、a.out等)。
  • 社群支援: NASM有一個活躍的社群,提供了豐富的文件和資源。

4.2.2. MASM(Microsoft Macro Assembler)

  • 閉源性: MASM是微軟的專有產品,不開源。
  • Windows專用: MASM主要用於Windows平臺,對Windows API有更好的支援。
  • 宏功能: MASM提供了強大的宏功能,可以定義複雜的宏指令和資料結構。
  • 整合開發環境: MASM與Visual Studio等微軟開發工具整合得更好,便於除錯和開發。
  • 文件和資源: 微軟提供了詳細的文件和示例程式碼,方便學習和使用。

4.2.3. GAS(GNU Assembler)

  • 開源性: GAS是GNU專案的一部分,完全開源。
  • 跨平臺: GAS廣泛用於Unix、Linux和macOS等類Unix系統。
  • AT&T語法: GAS使用AT&T語法,與NASM和MASM使用的Intel語法有所不同。
  • 整合性: GAS與GCC編譯器緊密整合,常用於編譯C/C++程式碼時生成彙編程式碼。
  • 靈活性: GAS支援多種目標平臺和架構,具有很高的靈活性。

4.2.4. TASM (Turbo Assembler)

TASM 比較有歷史了,是DOS系統時代的產物。

  • 由Borland公司開發,主要用於DOS和Windows平臺。
  • 支援高階組合語言特性,如宏、條件彙編等。
  • 與Borland的開發工具和環境整合良好。主要用於DOS和Windows平臺。

4.3. 語法差異

4.3.1. NASM 示例

section .data
    msg db 'Hello, World!', 0

section .text
    global _start

_start:
    mov eax, 4          ; 系統呼叫號 (sys_write)
    mov ebx, 1          ; 檔案描述符 (stdout)
    mov ecx, msg        ; 字串地址
    mov edx, 13         ; 字串長度
    int 0x80            ; 呼叫核心

    mov eax, 1          ; 系統呼叫號 (sys_exit)
    xor ebx, ebx        ; 退出碼
    int 0x80            ; 呼叫核心

4.3.2. MASM 示例

.data
    msg db 'Hello, World!', 0

.code
    main proc
        mov eax, 4          ; 系統呼叫號 (sys_write)
        mov ebx, 1          ; 檔案描述符 (stdout)
        mov ecx, offset msg ; 字串地址
        mov edx, sizeof msg ; 字串長度
        int 0x80            ; 呼叫核心

        mov eax, 1          ; 系統呼叫號 (sys_exit)
        xor ebx, ebx        ; 退出碼
        int 0x80            ; 呼叫核心
    main endp
end main

4.3.3. GAS 示例

.data
msg:
    .ascii "Hello, World!\0"

.text
    .global _start

_start:
    movl $4, %eax        # 系統呼叫號 (sys_write)
    movl $1, %ebx        # 檔案描述符 (stdout)
    movl $msg, %ecx      # 字串地址
    movl $13, %edx       # 字串長度
    int $0x80            # 呼叫核心

    movl $1, %eax        # 系統呼叫號 (sys_exit)
    xorl %ebx, %ebx      # 退出碼
    int $0x80            # 呼叫核心

4.4. 總結

NASM 適合需要跨平臺支援、開源性和靈活性的專案。
MASM 適合需要與Windows API緊密整合、使用複雜宏功能和整合開發環境的專案。
GAS 適合在類Unix系統上使用,特別是與GCC編譯器整合的情況。

選擇哪種彙編器取決於具體的專案需求、開發環境和目標平臺。


大家好,我是陌塵。

IT從業10年+, 北漂過也深漂過,目前暫定居於杭州,未來不知還會飄向何方。

搞了8年C++,也幹過2年前端;用Python寫過書,也玩過一點PHP,未來還會折騰更多東西,不死不休。

感謝大家的關注,歡迎加我微信(Spencer_MC),期待與大家一起交流。



【SunLogging】
組合語言1 - 什麼是組合語言?
掃碼二維碼,關注微信公眾號,閱讀更多精彩內容

相關文章