1. 彙編

1.1. 通用暫存器

通用暫存器

37個暫存器，31個通用暫存器，6個狀態暫存器，R13堆疊指標sp，R14返回指標，R15為PC指標, cpsr_c代表的是這32位中的低8位，也就是控制位

CPSR有4個8位區域：標誌域（F）、狀態域（S）、擴充套件域（X）、控制域（C）
MSR - Load specified fields of the CPSR or SPSR with an immediate constant, orfrom the contents of a general-purpose register. Syntax: MSR{cond} _, #immed_8rMSR{cond} _, Rm where: cond is an optional condition code. is either CPSR orSPSR. specifies the field or fields to be moved. can be one or more of: ccontrol field mask byte (PSR[7:0]) x extension field mask byte (PSR[15:8]) sstatus field mask byte (PSR[23:16) f flags field mask byte (PSR[31:24]).immed_8r is an expression evaluating to a numeric constant. The constant mustcorrespond to an 8-bit pattern rotated by an even number of bits within a32-bit word. Rm is the source register.

C 控制域遮蔽位元組(psr[7:0])

X 擴充套件域遮蔽位元組(psr[15:8])

S 狀態域遮蔽位元組(psr[23:16])

F 標誌域遮蔽位元組(psr[31:24])

CPSR暫存器

FIQ和IRQ的區別？

MODE(以下為二進位制)
10000	使用者模式	PC,CPSR,R0~R14
10001	FIQ	PC,CPSR,SPSR_fiq，R14_fiq~R8_fiq,R7~R0
10010	IRQ	PC,CPSR,SPSR_irq，R14_irq~R13_irq,R12~R0
10011	管理模式(svc)	PC,CPSR,SPSR_svc，R14_svc~R13_svc,R12~R0
10111	終止模式	PC,CPSR,SPSR_abt，R14_abt~R13_abt,R12~R0
11011	未定義	PC,CPSR,SPSR_und，R14_und~R13_und,R2~R0
11111	系統模式(sys)	PC,CPSR，R14 ~R0

security monitor mode：為支援trustzone, arm 增加一種mode : security monitor mode , 通過smc指令進入這個mode來進入security world(代表安全環境)；security monitor mode本身是屬於security world. 它叫security monitor mode；從security world返回 normal world 通過設定NS-bit in the Secure Configuration Register (SCR) in cp15中的bit。

協處理器

1. coprocessor 15

standard System Control coprocessor (coprocessor 15), which is used to control memory system components such as caches, write buffers, Memory Management Units, and Protection Units

1.1. 指令格式

訪問CP15暫存器指令的編碼格式及語法說明如下

<opcode_1>：協處理器行為操作碼，對於CP15來說，<opcode_1>永遠為0b000，否則結果未知。

<rd>：不能是r15/pc，否則，結果未知。

<crn>：作為目標暫存器的協處理器暫存器，編號為C0~C15。

<crm>：附加的目標暫存器或源運算元暫存器，如果不需要設定附加資訊，將crm 設定為c0，否則結果未知。

<opcode_2>：提供附加資訊比如暫存器的版本號或者訪問型別，用於區分同一個編號的不同物理暫存器，可以省略<opcode_2>或者將其設定為0，否則結果未知。

1.2. 暫存器

1.2.1. C0

CP15中暫存器C0對應兩個識別符號暫存器，由訪問CP15中的暫存器指令中的<opcode_2>指定要訪問哪個具體物理暫存器，<opcode_2>與兩個識別符號暫存器的對應關係如下所示：

opcode_2編碼	對應的識別符號號暫存器
0b000	主識別符號暫存器
0b001	cache型別識別符號暫存器
其他	保留

1）主識別符號暫存器

訪問主識別符號暫存器的指令格式如下所示：

mrc p15, 0, r0, c0, c0, 0 ；將主識別符號暫存器C0,0的值讀到r0中

ARM不同版本體系處理器中主識別符號暫存器的編碼格式說明如下。

ARM7之後處理器的主識別符號暫存器編碼格式如下所示：


由生產商確定	產品子編號	ARM體系版本號	產品主編號	處理器版本號

位	說明
位[3: 0]	生產商定義的處理器版本號
位[15: 4]	生產商定義的產品主編號，其中最高4位即位[15:12]可能的取值為0~7但不能是0或7
位[19: 16]	ARM體系的版本號，可能的取值如下： 0x1 ARM體系版本4 0x2 ARM體系版本4T 0x3 ARM體系版本5 0x4 ARM體系版本5T 0x5 ARM體系版本5TE 其他由ARM公司保留將來使用
位[23: 20]	生產商定義的產品子編號，當產品主編號相同時，使用子編號來區分不同的產品子類，如產品中不同的快取記憶體的大小等
位[31: 24]	生產廠商的編號，現在已經定義的有以下值： 0x41 =A ARM公司 0x44 =D Digital Equipment公司 0x69 =I intel公司

ARM7處理器的主識別符號暫存器編碼格式如下所示：


由生產商確定	A	產品子編號	產品主編號	處理器版本號

位	說明
位[3: 0]	生產商定義的處理器版本號
位[15: 4]	生產商定義的產品主編號，其中最高4位即位[15:12]的值為0x7
位[22: 16]	生產商定義的產品子編號，當產品主編號相同時，使用子編號來區分不同的產品子類，如產品中不同的快取記憶體的大小等

位[23]	ARM7支援下面兩種ARM體系的版本號： 0x0 ARM體系版本3 0x1 ARM體系版本4T
位[31: 24]	生產廠商的編號，現在已經定義的有以下值： 0x41 =A ARM公司 0x44 =D Digital Equipment公司 0x69 =I Intel公司

ARM7之前處理器的主識別符號暫存器編碼格式如下所示：


由生產商確定	A	產品子編號	產品主編號	處理器版本號

位	說明
位[3: 0]	生產商定義的處理器版本號
位[15: 4]	生產商定義的產品主編號，其中最高4位即為[15:12]的值為0x7
位[22: 16]	生產商定義的產品子編號，當產品主編號相同時，使用子編號來區分不同的產品子類，如產品中不同的快取記憶體的大小等
位[23]	ARM7支援下面兩種ARM體系的版本號： 0x0 ARM體系版本3 0x1 ARM體系版本4T
位[31: 24]	生產廠商的編號，現在已經定義的有以下值： 0x41 =A ARM公司 0x44 =D Digital Equipment公司 0x69 =I intel公司

2）cache型別識別符號暫存器

訪問cache型別識別符號暫存器的指令格式如下所示：

mrc p15, 0, r0, c0, c0, 1 ；將cache型別識別符號暫存器C0,1的值讀到r0中

ARM處理器中cache型別識別符號暫存器的編碼格式如下所示：


0 0 0	屬性欄位	S	資料cache相關屬性	指令cache相關屬性

位	說明
位[28: 25]	指定控制欄位位[24: 0]指定的屬性之外的cache的其他屬性，詳見表4-2
位[24]	定義系統中的資料cache和指令cache是分開的還是統一的： 0 系統的資料cache和指令cache是統一的； 1 系統的資料cache和指令cache是分開的
位[23: 12]	mov
位[31: 24]	定義指令cache的相關屬性，如果位[24]為0，本欄位定義整個cache的屬性

其中控制欄位位[28：25]的含義說明如下：

表4-2 cache型別識別符號暫存器的控制欄位位[28：25]

編碼	cache型別	cache內容清除方法	cache內容鎖定方法
0b0000	寫通型別	不需要內容清除	不支援內容鎖定
0b0001	寫回型別	資料塊讀取	不支援內容鎖定
0b0010	寫回型別	由暫存器C7定義	不支援內容鎖定
0b0110	寫回型別	由暫存器C7定義	支援格式A
0b0111	寫回型別	由暫存器C7定義	支援格式B

控制欄位位[23：12]和控制欄位位[11：0]的編碼格式相同，含義如下所示：


0 0 0	cache容量	cache相聯特性	M	塊大小

cache容量欄位bits[8: 6]的含義如下所示：

編碼	M=0時含義（單位KB）	M=1時含義（單位KB）
0b000	0.5	0.75
0b001	1	1.5
0b010	2	3
0b011	4	6
0b100	8	12
0b101	16	24
0b110	32	48
0b111	64	96

cache相聯特性欄位bits[5: 3]的含義如下所示：

編碼	M=0時含義	M=1時含義
0b000	1路相聯（直接對映）	沒有cache
0b001	2路相聯	3路相聯
0b010	4路相聯	6路相聯
0b011	8路相聯	12路相聯
0b100	16路相聯	24路相聯
0b101	32路相聯	48路相聯
0b110	64路相聯	96路相聯
0b111	128路相聯	192路相聯

cache塊大小欄位bits[1: 0]的含義如下所示：

編碼	cache塊大小
0b00	2個字（8位元組）
0b01	4個字（16位元組）
0b10	8個字（32位元組）
0b11	16個字（64位元組）

1.2.2. C1

訪問主識別符號暫存器的指令格式如下所示：

mrc p15, 0, r0, c1, c0{, 0} ；將CP15的暫存器C1的值讀到r0中

mcr p15, 0, r0, c1, c0{, 0} ；將r0的值寫到CP15的暫存器C1中

CP15中的暫存器C1的編碼格式及含義說明如下：

31 16	15	14	13	12	11	10	9	8	7	6	5	4	3	2	1	0
附加	L4	RR	V	I	Z	F	R	S	B	L	D	P	W	C	A	M

位	說明
M	0：禁止MMU或者PU；1：使能MMU或者PU
A	0：禁止地址對齊檢查；1：使能地址對齊檢查
C	0：禁止資料/整個cache；1：使能資料/整個cache
W	0：禁止寫緩衝；1：使能寫緩衝
P	0：異常中斷處理程式進入32位地址模式；1：異常中斷處理程式進入26位地址模式
D	0：禁止26位地址異常檢查；1：使能26位地址異常檢查
L	0：選擇早期中止模型；1：選擇後期中止模型
B	0：little endian；1：big endian
S	在基於MMU的儲存系統中，本位用作系統保護
R	在基於MMU的儲存系統中，本位用作ROM保護
F	0：由生產商定義
Z	0：禁止跳轉預測功能；1：使能跳轉預測指令
I	0：禁止指令cache；1：使能指令cache
V	0：選擇低端異常中斷向量0x0~0x1c；1：選擇高階異常中斷向量0xffff0000~ 0xffff001c
RR	0：常規的cache淘汰演算法，如隨機淘汰；1：預測性淘汰演算法，如round-robin淘汰演算法
L4	0：保持ARMv5以上版本的正常功能；1：將ARMv5以上版本與以前版本處理器相容，不根據跳轉地址的bit[0]進行ARM指令和Thumb狀態切換：bit[0]等於0表示ARM指令，等於1表示Thumb指令
附加：

1.2.3. C2

CP15中的暫存器C2儲存的是頁表的基地址，即一級對映描述符表的基地址。其編碼格如下所示：

一級對映描述符表的基地址（實體地址）

1.2.4. C3

CP15中的暫存器C3定義了ARM處理器的16個域的訪問許可權。

D15

D14

D13

D12

D11

D10

D9

D8

D7

D6

D5

D4

D3

D2

D1

D0

1.2.5. C5

CP15中的暫存器C5是失效狀態暫存器，編碼格式如下所示：


UNP/SBZP	0	域標識	狀態標識

其中，域標識bit[7：4]表示存放引起儲存訪問失效的儲存訪問所屬的域。

狀態標識bit[3：0]表示放引起儲存訪問失效的儲存訪問型別，該欄位含義如表4-3所示（優先順序由上到下遞減）。

表4-3 狀態標識欄位含義

引起訪問失效的原因	狀態標識	域標識	C6
終端異常（Terminal Exception）	0b0010	無效	生產商定義
中斷向量訪問異常（Vector Exception）	0b0000	無效	有效
地址對齊	0b00x1	無效	有效
一級頁表訪問失效	0b1100	無效	有效
二級頁表訪問失效	0b1110	有效	有效
基於段的地址變換失效	0b0101	無效	有效
基於頁的地址變換失效	0b0111	有效	有效
基於段的儲存訪問中域控制失效	0b1001	有效	有效
基於頁的儲存訪問中域控制失效	0b1101	有效	有效
基於段的儲存訪問中訪問許可權控制失效	0b1111	有效	有效
基於頁的儲存訪問中訪問許可權控制失效	0b0100	有效	有效
基於段的cache預取時外部儲存系統失效	0b0110	有效	有效
基於頁的cache預取時外部儲存系統失效	0b1000	有效	有效
基於段的非cache預取時外部儲存系統失效	0b1010	有效	有效

1.2.6. C6

CP15中的暫存器C5是失效地址暫存器，編碼格式如下所示：

失效地址（虛擬地址）

1.2.7. C7

CP15的C7暫存器用來控制cache和寫快取，它是一個只寫暫存器，讀操作將產生不可預知的後果。

訪問CP15的C7暫存器的指令格式如下所示：

mcr p15, 0, <rd>, <c7>, crm, <opcode_2> ；<rd>、<crm>和<opcode_2>的不同取值組合實現不同功能

1.2.8. C8

CP15的C8暫存器用來控制清除TLB的內容，是隻寫暫存器，讀操作將產生不可預知的後果。

訪問CP15的C8暫存器的指令格式如下所示：

mcr p15, 0, <rd>, <c8>, crm, <opcode_2> ；<rd>、<crm>和<opcode_2>的不同取值組合實現不同功能，見第4.2節

1.2.9. C9

CP15的C9暫存器用於控制cache內容鎖定。

訪問CP15的C9暫存器的指令格式如下所示：

mcr p15, 0, <rd>, <c9>, c0, <opcode_2>

mrc p15, 0, <rd>, <c9>, c0, <opcode_2>

如果系統中包含獨立的指令cache和資料cache，那麼對應於資料cache和指令cache分別有一個獨立的cache內容鎖定暫存器，<opcode_2>用來選擇其中的某個暫存器：

<opcode_2>=1選擇指令cache的內容鎖定暫存器；

<opcode_2>=0選擇資料cache的內容鎖定暫存器。

CP15的C9暫存器有A、B兩種編碼格式。編碼格式A如下所示：


cache組內塊序號index	0

其中index表示當下一次發生cache未命中時，將預取的儲存塊存入cache中該塊對應的組中序號為index的cache塊中。此時序號為 0~index-1的cache塊被鎖定，當發生cache替換時，從序號為index到ASSOCIATIVITY的塊中選擇被替換的塊。

編碼格式B如下所示：


L	0	cache組內塊序號index

位	說明
L=0	當發生cache未命中時，將預取的儲存塊存入cache中該塊對應的組中序號為index的cache塊中

續表

位	說明
L=1	如果本次寫操作之前L=0，並且index值小於本次寫入的index，本次寫操作執行的結果不可預知；否則，這時被鎖定的cache塊包括序號為0~index-1的塊，當發生cache替換時，從序號為index到ASSOCIATIVITY的塊中選擇被替換的塊

1.2.10. C10

CP15的C10暫存器用於控制TLB內容鎖定。

訪問CP15的C10暫存器的指令格式如下所示：

mcr p15, 0, <rd>, <c10>, c0, <opcode_2>

mrc p15, 0, <rd>, <c10>, c0, <opcode_2>

如果系統中包含獨立的指令TLB和資料TLB，那麼對應於資料TLB和指令TLB分別有一個獨立的TLB內容鎖定暫存器，<opcode_2>用來選擇其中的某個暫存器：

<opcode_2>=1選擇指令TLB的內容鎖定暫存器；

<opcode_2>=0選擇資料TLB的內容鎖定暫存器。

C10暫存器的編碼格式如下：


可被替換的條目起始地址的base	下一個將被替換的條目地址victim	0	P

位	說明
victim	指定下一次TLB沒有命中（所需的地址變換條目沒有包含在TLB中）時，從記憶體頁表中讀取所需的地址變換條目，並把該地址變換條目儲存在TLB中地址victim處
base	指定TLB替換時，所使用的地址範圍，從（base）到（TLB中條目數-1）；欄位victim的值應該包含在該範圍內
P	1：寫入TLB的地址變換條目不會受使整個TLB無效操作的影響，一直保持有效；0：寫入TLB的地址變換條目將會受到使整個TLB無效操作的影響

1.2.11. C13

C13暫存器用於快速上下文切換FCSE。

訪問CP15的C13暫存器的指令格式如下所示：

mcr p15, 0, <rd>, <c13>, c0, 0

mrc p15, 0, <rd>, <c13>, c0, 0

C13暫存器的編碼格式如下所示：


PID	0

其中，PID表示當前程式的所在的程式空間塊的編號，即當前程式的程式識別符號，取值為0~127。

0：MVA（變換後的虛擬地址）= VA（虛擬地址），禁止FCSE（快速上下文切換技術），系統復位後PID=0；

非0：使能FCSE。

1.3.2. Vector Floating-point (VFP)

Vector Floating-point (VFP) architecture, wh ich uses coprocessors 10 and 11 to supply a high-performance floating- point instruction set.

1.3.3. coprocessor 14

The debug architecture interface (coprocessor 14), formally added to the architecture in ARM v6 to provide software access to debug features in ARM cores, (for example, breakpoint and watchpoint control).

1.2. 指令格式

1) 基本格式

<opcode>{<cond>}{S} <Rd>,<Rn>{,<opcode2>}

其中，<>內的項是必須的，{}內的項是可選的，如<opcode>是指令助記符，是必須的，而{<cond>}為指令執行條件，是可選的，如果不寫則使用預設條件AL(無條件執行)。

opcode 指令助記符，如LDR，STR 等

cond 執行條件，如EQ，NE 等

S 是否影響CPSR 暫存器的值，書寫時影響CPSR，否則不影響

Rd 目標暫存器

Rn 第一個運算元的暫存器

operand2 第二個運算元

指令格式舉例如下：

LDREX--這條指令主要是從memory中取一個數，然後放到register中，但是相比普通的LDR指令，在於其內在的原子操作特性, 訊號量和spin lock這些東西最核心的事情基本上就是load-update-store序列，為了防止併發，必須保證這個序列是原子的，所謂原子，即處理器在執行這個指令序列時，得絕對佔有處理器而不能夠被切換出去。在ARM上，從V6開始，指令LDREX和STREX就是用來幹這事的

       LDR R0,[R1] ;讀取R1 地址上的儲存器單元內容，執行條件AL
        BEQ DATAEVEN ;跳轉指令，執行條件EQ，即相等跳轉到DATAEVEN
        ADDS R1,R1,#1 ;加法指令，R1＋1＝R1 影響CPSR 暫存器，帶有S
        SUBNES R1,R1,#0xD;條件執行減法運算(NE)，R1-0xD=>R1，影響CPSR 暫存器，帶有S

2) 第2個運算元

在ARM 指令中，靈活的使用第2個運算元能提高程式碼效率，第2個運算元的形式如下：

＃immed_8r

常數表示式：

該常數必須對應8 位點陣圖，即常數是由一個8 位的常數迴圈移位偶數位得到。

合法常量：

0x3FC、0、0xF0000000、200、0xF0000001等都是合法常量。

非法常量：

0x1FE、511、0xFFFF、0x1010、0xF0000010等都是非法常量。

常數表示式應用舉例如下：

MOV R0,#1 ;R0=1

AND R1,R2,#0x0F ;R2 與0x0F，結果儲存在R1

LDR R0，[R1],#-4 ;讀取R1 地址上的儲存器單元內容，且R1＝R1－4

Rm

暫存器方式，在暫存器方式下運算元即為暫存器的數值。

暫存器方式應用舉例：

SUB R1，R1，R2 ；R1-R2=＞R1

MOV PC，R0 ；PC=R0，程式跳轉到指定地址

LDR R0，[R1]，-R2 ；讀取R1 地址上的儲存器單元內容並存入R0，且R1=R1-R2

Rm， shift

暫存器移位方式。將暫存器的移位結果作為運算元，但RM 值儲存不變，移位方法如下：

ASR #n 算術右移n 位（1≤n≤32）

LSL #n 邏輯左移n 位（1≤n≤31）

LSR #n 邏輯左移n 位（1≤n≤32）

ROR #n 迴圈右移n 位（1≤n≤31）

RRX 帶擴充套件的迴圈右移1位

type Rs 其中，type 為ASR，LSL，和ROR 中的一種；Rs 偏移量暫存器，低8位有效，若其值大於或等於32，則第2 個運算元的結果為0（ASR、ROR例外）。
暫存器偏移方式應用舉例：

ADD R1，R1，R1，LSL #3 ；R1=R1*9

SUB R1，R1，R2，LSR#2 ；R1=R1-R2*4

       R15 為處理器的程式計數器PC，一般不要對其進行操作，而且有些指令是不允許使用R15，如UMULL 指令。
        （3）條件碼
        使用指令條件碼，可實現高效的邏輯操作，提高程式碼效率。表A-1給出條件碼錶。

表A-1 條件碼錶

對於Thumb指令集，只有B 指令具有條件碼執行功能，此指令條件碼同表A-?，但如果為無條件執行時，條件碼助記符“AL”不在指令中書寫。

條件碼應用舉例如下：

        比較兩個值大小，並進行相應加1 處理，C 程式碼為：
        if（a＞b）a++       ;
        else b++           ;
        對應的ARM 指令如下。其中R0為a，R1為b。
        CMP R0，R1        ; R0 與R1 比較
        ADDHI R0，R0，#1        ; 若R0＞R1，則R0=R0+1
        ADDLS R1，R1，#1        ;若R0＜=R1，則R1=R1+1
        若兩個條件均成立，則將這兩個數值相加，C程式碼為：

If(（a!=10）&&(b!=20))a=a+b;

        對應的ARM 指令如下，其中R0 為a，R1為b。
        CMP R0,#10            ; 比較R0 是否為10
        CMPNE R1,#20        ; 若R0 不為10，則比較R1 是否20
        ADDNE R0,R0,R1        ; 若R0 不為10 且R1 不為20，指令執行，R0=R0+R1

1.3. 指令集

1.3.1. ARM 儲存器訪問指令

ARM 處理是載入/儲存體系結構的典型的RISC處理器，對儲存器的訪問只能使用載入和儲存指令實現。ARM 的載入/儲存指令是可以實現字、半字、無符/有符位元組操作；批量載入/儲存指令可實現一條指令載入/儲存多個暫存器的內容，大大提高效率；SWP指令是一條暫存器和儲存器內容交換的指令，可用於訊號量操作等。ARM 處理器是馮?諾依曼儲存結構，程式空間、RAM 空間及IO 對映空間統一編址，除對對RAM 操作以外，對外圍IO、程式資料的訪問均要通過載入/儲存指令進行。表A-2給出ARM儲存訪問指令表。

表A-2 ARM 儲存訪問指令表

        LDR 和STR
        載入/儲存字和無符號位元組指令。使用單一資料傳送指令(STR 和LDR)來裝載和儲存單一位元組或字的資料從/到記憶體。LDR指令用於從記憶體中讀取資料放入暫存器中；STR 指令用於將暫存器中的資料儲存到記憶體。指令格式如下：
        LDR{cond}{T} Rd,<地址>;載入指定地址上的資料(字)，放入Rd中
        STR{cond}{T} Rd,<地址>;儲存資料(字)到指定地址的儲存單元，要儲存的資料在Rd中
        LDR{cond}B{T} Rd,<地址>;載入位元組資料，放入Rd中，即Rd最低位元組有效，高24位清零
        STR{cond}B{T} Rd,<地址>;儲存位元組資料，要儲存的資料在Rd，最低位元組有效
        其中，T 為可選字尾，若指令有T，那麼即使處理器是在特權模式下，儲存系統也將訪問看成是處理器是在使用者模式下。T在使用者模式下無效，不能與前索引偏移一起使用T。
        LDR/STR 指令定址是非常靈活的，由兩部分組成，一部分為一個基址暫存器，可以為任一個通用暫存器，另一部分為一個地址偏移量。地址偏移量有以下3種格式：
        (1) 立即數。立即數可以是一個無符號數值，這個資料可以加到基址暫存器，也可以從基址暫存器中減去這個數值。指令舉例如下：
        LDR R1,[R0,#0x12] ;將R0+0x12 地址處的資料讀出，儲存到R1中(R0 的值不變)
        LDR R1,[R0,#-0x12];將R0-0x12 地址處的資料讀出，儲存到R1中(R0 的值不變)
        LDR R1,[R0] ;將R0 地址處的資料讀出，儲存到R1 中(零偏移)
        (2)暫存器。暫存器中的數值可以加到基址暫存器，也可以從基址暫存器中減去這個數值。指令舉例值。指令舉例如下：
        LDR R1,[R0,R2] ;將R0+R2 地址的資料計讀出，儲存到R1中(R0 的值不變)
        LDR R1,[R0,-R2] ;將R0-R2 地址處的資料計讀出，儲存到R1中(R0 的值不變)
        (3)暫存器及移位常數。暫存器移位後的值可以加到基址暫存器，也可以從基址暫存器中減去這個數值。指令舉例如下：
        LDR R1,[R0,R2,LSL #2] ;將R0+R2*4地址處的資料讀出，儲存到R1中（R0，R2的值不變）
        LDR R1,[R0,-R2,LSL #2];將R0-R2*4地址處的資料計讀出，儲存到R1中(R0，R2的值不變)
        從定址方式的地址計算方法分，載入/儲存指令有以下4 種形式：
        (1)零偏移。Rn 的值作為傳送資料的地址，即地址偏移量為0。指令舉例如下：
        LDR Rd,[Rn]
        (2)前索引偏移。在資料傳送之前，將偏移量加到Rn 中，其結果作為傳送資料的儲存地址。若使用字尾“！”，則結果寫回到Rn中，且Rn 值不允許為R15。指令舉例如下：
        LDR Rd,[Rn,#0x04]!
        LDR Rd,[Rn,#-0x04]
        (3)程式相對偏移。程式相對偏移是索引形式的另一個版本。彙編器由PC 暫存器計算偏移量，並將PC暫存器作為Rn 生成前索引指令。不能使用字尾“！”。指令舉例如下：
        LDR Rd,label ;label 為程式標號，label 必須是在當前指令的±4KB範圍內
        (4) 後索引偏移。Rn 的值用做傳送資料的儲存地址。在資料傳送後，將偏移量與Rn相加，結果寫回到Rn中。Rn 不允許是R15。指令舉例如下：
        LDR Rd,[Rn],#0x04
        地址對準--大多數情況下，必須保證用於32 位傳送的地址是32 位對準的。
        載入/儲存字和無符號位元組指令舉例如下：
        LDR R2,[R5] ;載入R5 指定地址上的資料(字)，放入R2 中
        STR R1,[R0,#0x04] ;將R1 的資料儲存到R0+0x04儲存單元，R0 值不變
        LDRB R3,[R2],#1 ;讀取R2 地址上的一位元組資料，並儲存到R3中，R2=R3+1
        STRB R6,[R7] ;讀R6 的資料儲存到R7 指定的地址中，只儲存一位元組資料
        載入/儲存半字和帶符號位元組。這類LDR/STR 指令可能載入帶符位元組\載入帶符號半字、載入/儲存無符號半字。偏移量格式、定址方式與載入/儲存字和無符號位元組指令相同。指令格式如下：
        LDR{cond}SB Rd,<地址> ;載入指定地址上的資料(帶符號位元組)，放入Rd中
        LDR{cond}SH Rd,<地址> ;載入指定地址上的資料(帶符號位元組)，放入Rd中
        LDR{cond}H Rd,<地址> ;載入半字資料，放入Rd中，即Rd最低16位有效,高16位清零
        STR{cond}H Rd,<地址> ;儲存半字資料，要儲存的資料在Rd，最低16位有效
        說明：帶符號位半字/位元組載入是指帶符號位載入擴充套件到32 位;無符號位半字載入是指零擴充套件到32位。
        地址對準--對半字傳送的地址必須為偶數。非半字對準的半字載入將使Rd 內容不可靠，非半字對準的半字儲存將使指定地址的2位元組儲存內容不可靠。

載入/儲存半字和帶符號位元組指令舉例如下：

        LDRSB R1[R0,R3] ;將R0+R3地址上的位元組資料讀出到R1，高24 位用符號位擴充套件
        LDRSH R1,[R9] ;將R9 地址上的半字資料讀出到R1，高16位用符號位擴充套件
        LDRH R6,[R2],#2 ;將R2 地址上的半字資料讀出到R6，高16位用零擴充套件，R2=R2+1
        SHRH R1,[R0,#2]!;將R1 的資料儲存到R2+2 地址中，只儲存低2位元組資料，R0=R0+2
        LDR/STR 指令用於對記憶體變數的訪問，記憶體緩衝區資料的訪問、查表、外設的控制操作等等，若使用LDR 指令載入資料到PC 暫存器，則實現程式跳轉功能，這樣也就實現了程式散轉。
        變數的訪問
        NumCount EQU 0x40003000 ;定義變數NumCount
        …
        LDR R0,=NumCount ;使用LDR 偽指令裝載NumCount的地址到R0
        LDR R1,[R0] ;取出變數值
        ADD R1,R1,#1 ;NumCount=NumCount+1
        STR R1,[R0] ;儲存變數值
        …
        GPIO 設定
        GPIO-BASE EQU 0Xe0028000 ;定義GPIO 暫存器的基地址
        …
        LDR R0,=GPIO-BASE
        LDR R1,=0x00FFFF00 ;裝載32 位立即數，即設定值
        STR R1,[R0,#0x0C] ;IODIR=0x00FFFF00， IODIR 的地址為0xE002800C
        MOV R1,#0x00F00000
        STR R1,[R0,#0x04] ;IOSET=0x00F00000，IOSET 的地址為0xE0028004
        …
        程式散轉
        …
        MOV R2,R2,LSL #2 ;功能號乘上4，以便查表
        LDR PC,[PC,R2] ;查表取得對應功能子程式地址，並跳轉
        NOP
        FUN-TAB DCD FUN-SUB0
        DCD FUN-SUB1
        DCD FUN-SUB2
        …

        LDM和STM
        批量載入/儲存指令可以實現在一組暫存器和一塊連續的記憶體單元之間傳輸資料。LDM為載入多個暫存器，STM 為儲存多個暫存器。允許一條指令傳送16 個暫存器的任何子集或所有暫存器。指令格式如下：
        LDM{cond}<模式> Rn{!},reglist{^}
        STM{cond}<模式> Rn{!},reglist{^}
        LDM /STM 的主要用途是現場保護、資料複製、引數傳送等。其模式有8種，如下所列：(前面4 種用於資料塊的傳輸，後面4 種是堆疊操作)。
        (1) IA：每次傳送後地址加4
        (2) IB：每次傳送前地址加4
        (3) DA：每次傳送後地址減4
        (4) DB：每次傳送前地址減4
        (5) FD：滿遞減堆疊
        (6) ED：空遞增堆疊
        (7) FA：滿遞增堆疊
        (8) EA：空遞增堆疊
        其中，暫存器Rn 為基址暫存器，裝有傳送資料的初始地址，Rn 不允許為R15;字尾“！”表示最後的地址寫回到Rn中;暫存器列表reglist 可包含多於一個暫存器或暫存器範圍，使用“,”分開，如{R1,R2,R6-R9},暫存器排列由小到大排列；“＾”字尾不允許在使用者模式呈系統模式下使用，若在LDM 指令用暫存器列表中包含有PC 時使用，那麼除了正常的多暫存器傳送外，將SPSR 拷貝到CPSR 中，這可用於異常處理返回；使用“＾”字尾進行資料傳送且暫存器列表不包含PC時，載入/儲存的是使用者模式的暫存器，而不是當前模式的暫存器。
        地址對準――這些指令忽略地址的位[1：0]。
        批量載入/儲存指令舉例如下：
        LDMIA R0!,{R3-R9} ;載入R0 指向的地址上的多字資料，儲存到R3～R9中，R0 值更新
        STMIA R1!,{R3-R9} ;將R3～R9 的資料儲存到R1 指向的地址上，R1值更新
        STMFD SP!,{R0-R7,LR} ;現場儲存，將R0～R7、LR入棧
        LDMFD SP!,{R0-R7,PC}^;恢復現場，異常處理返回
        在進行資料複製時，先設定好源資料指標，然後使用塊拷貝定址指令LDMIA/STMIA、LDMIB/STMIB、LDMDA/STMDA、LDMDB/STMDB 進行讀取和儲存。而進行堆疊操作時，則要先設定堆疊指標，一般使用SP 然後使用堆疊定址指令STMFD/LDMFD、STMED。LDMED、STMFA/LDMFA、STMEA/LDMEA實現堆疊操作。
        多暫存器傳送指令示意圖如圖A-1所示，其中R1為指令執行前的基址暫存器，R1’則為指令執行完後的基址暫存器。

（a）指令STMIA R1!,{R5-R7}              （b）指令STMIB R1!,{R5-R7}


（c）指令STMDA R1!, {R5-R7}              （d）指令STMDB R1!,{R5-R7}
圖A-1 多暫存器傳送指令示意圖

資料是儲存在基址暫存器的地址之上還是之下，地址是在儲存第一個值之前還是之後增加還是減少。表A-3給出多暫存器傳送指令對映示意表。

表A-3 多暫存器傳送指令對映示意表

        使用LDM/STM 進行資料複製例程如下：
        …
        LDR R0,=SrcData ;設定源資料地址
        LDR R1,=DstData ;設定目標地址
        LDMIA R0,{R2-R9} ;載入8 字資料到暫存器R2～R9
        STMIA R1,{R2-R9} ;儲存暫存器R2～R9 到目標地址

        使用LDM/STM 進行現場暫存器保護，常在子程式中或異常處理使用：
        SENDBYTE
        STMFD SP!,{R0-R7,LR} ;暫存器入堆
        …
        BL DELAY ;呼叫DELAY 子程式
        …
        LDMFD SP!,{R0-R7,PC} ;恢復暫存器，並返回

        SWP
        暫存器和儲存器交換指令。SWP指令用於將一個記憶體單元（該單元地址放在暫存器Rn中）的內容讀取到一個暫存器Rd中，同時將另一個暫存器Rm 的內容寫入到該記憶體單元中。使用SWP 可實現訊號量操作。
        指令格式如下：
        SWP{cond}{B} Rd,Rm,[Rn]
        其中，B 為可選字尾，若有B，則交換位元組，否則交換32 位字：Rd 為資料從儲存器載入到的暫存器;Rm的資料用於儲存到儲存器中，若Rm 與Rn 相同，則為暫存器與儲存器內容進行交換;Rn 為要進行資料交換的儲存器地址，Rn 不能與Rd 和Rm 相同。
        SWP 指令舉例如下：
        SWP R1,R1,[R0] ; 將R1 的內容與R0 指向的儲存單元的內容進行交換
        SWP R1,R2,,[R0] ; 將R0 指向的儲存單元內容讀取一位元組資料到R1中(高24 位清零)
                                       ; 並將R2 的內容寫入到該記憶體單元中(最低位元組有效)
        使用SWP 指令可以方便地進行訊號量的操作：
        12C_SEM EQU 0x40003000
        …
        12C_SEM_WAIT
        MOV R0,#0
        LDR R0,=12C_SEM
        SWP R1,R1,[R0]        ;取出訊號量，並設定其為0
        CMP R1,#0            ;判斷是否有訊號
        BEQ 12C_SEM_WAIT     ;若沒有訊號，則等待

1.3.2. ARM 資料處理指令

資料處理指令大致可分為3 類：

（1）資料傳送指令（如MOV、MVN）

（2）算術邏輯運算指令（如ADD,SUM,AND）

（3）比較指令（如CMP、TST）。

資料處理指令只能對暫存器的內容進行操作。所有ARM 資料處理指令均可選擇使用S 字尾，以影響狀態標誌。比較指令CMP、CMN、TST和TEQ不需要字尾S，它們會直接影響狀態標誌。ARM資料處理指令列於表A-4中。

表A-4 ARM 資料處理指令

        （1）資料傳送指令
       MOV
        資料傳送指令。將8 點陣圖立即數或暫存器(operant2)傳送到目標暫存器Rd，可用於移位運算等操作。指令格式如下：
        MOV{cond}{S} Rd,operand2
        MOV 指令舉例如下：
        MOV R1#0x10 ;R1=0x10
        MOV R0,R1 ;R0=R1
        MOVS R3,R1,LSL #2 ;R3=R1＜＜2，並影響標誌位
        MOV PC,LR   ;PC=LR ，子程式返回

        MVN
        資料非傳送指令。將8 點陣圖立即數或暫存器(operand2)按位取反後傳送到目標暫存器(Rd)，因為其具有取反功能，所以可以裝載範圍更廣的立即數。指令格式如下：
        MVN{cond}{S} Rd,operand2
        MVN 指令舉例如下：
        MVN R1,#0xFF ;R1=0xFFFFFF00
        MVN R1,R2 ;將R2 取反，結果存到R1

        （2）算術邏輯運算指令
        ADD
        加法運算指令。將operand2 資料與Rn 的值相加，結果儲存到Rd 暫存器。指令格式如下：
        ADD{cond}{S} Rd,Rn,operand2
        ADD 指令舉例如下：
        ADDS R1,R1,#1 ;R1=R1+1
        ADD R1,R1,R2 ;R1=R1+R2
        ADDS R3,R1,R2,LSL #2 ;R3=R1+R2＜＜2

        SUB
        減法運算指令。用暫存器Rn 減去operand2。結果儲存到Rd 中。指令格式如下：
        SUB{cond}{S} Rd,Rn,operand2
        SUB 指令舉例如下：
        SUBS R0,R0,#1 ;R0=R0-1
        SUBS R2,R1,R2 ;R2=R1-R2
        SUB R6,R7,#0x10 ;R6=R7-0x10

        RSB
        逆向減法指令。用暫存器operand2 減法Rn，結果儲存到Rd 中。指令格式如下：
        RSB{cond}{S} Rd,Rn,operand2
        SUB 指令舉例如下：
        RSB R3,R1,#0xFF00 ;R3=0xFF00-R1
        RSBS R1,R2,R2,LSL #2 ;R1=R2＜＜2-R2=R2×3
        RSB R0,R1,#0 ;R0=-R1

        ADC
        帶進位加法指令。將operand2 的資料與Rn 的值相加，再加上CPSR中的C 條件標誌位。結果儲存到Rd 暫存器。指令格式如下：
        ADC{cond}{S} Rd,Rn,operand2
        ADC 指令舉例如下：
        ADDS R0,R0,R2
        ADC R1,R1,R3 ;使用ADC 實現64 位加法，(R1、R0)=(R1、R0)+（R3、R2）

        SBC
        帶進位減法指令。用暫存器Rn 減去operand2，再減去CPSR 中的C條件標誌位的非（即若C 標誌清零，則結果減去1），結果儲存到Rd 中。指令格式如下：
        SCB{cond}{S}Rd,Rn,operand2
        SBC 指令舉例如下：
        SUBS R0，R0，R2
        SBC R1，R1，R3 ;使用SBC 實現64 位減法，(R1,R0)-(R3,R2)

        RSC
        帶進位逆向減法指令。用暫存器operand2 減去Rn，再減去CPSR 中的C條件標誌位，結果儲存到Rd 中。指令格式如下：
        RSC{cond}{S} Rd,Rn,operand2
        RSC 指令舉例如下：
        RSBS R2,R0,#0
        RSC R3,R1,#0 ;使用RSC 指令實現求64 位數值的負數

        AND
        邏輯與操作指令。將operand2 值與暫存器Rn 的值按位作邏輯與操作，結果儲存到Rd中。指令格式如下：
        AND{cond}{S} Rd,Rn,operand2
        AND 指令舉例如下：
        ANDS R0,R0,#x01 ;R0=R0&0x01，取出最低位資料
        AND R2,R1,R3 ;R2=R1&R3

       ORR
        邏輯或操作指令。將operand2 的值與暫存器Rn的值按位作邏輯或操作，結果儲存到Rd 中。指令格式如下：
        ORR{cond}{S} Rd,Rn,operand2
        ORR 指令舉例如下：
        ORR R0,R0,#x0F ;將R0 的低4 位置1
        MOV R1,R2,LSR #4
        ORR R3,R1,R3,LSL #8 ;使用ORR 指令將近R2 的高8位資料移入到R3 低8 位中

        EOR
        邏輯異或操作指令。將operand2 的值與暫存器Rn 的值按位作邏輯異或操作，結果儲存到Rd中。指令格式如下：
        EOR{cond}{S}Rd,Rn,operand2
        EOR 指令舉例如下：
        EOR R1,R1,#0x0F ;將R1 的低4 位取反
        EOR R2,R1,R0 ;R2=R1^R0
        EORS R0,R5,#0x01 ;將R5 和0x01 進行邏輯異或，結果儲存到R0，並影響標誌位

        BIC
        位清除指令。將暫存器Rn 的值與operand2 的值的反碼按位作邏輯與操作，結果儲存到Rd中。指令格式如下：
        BIC{cond}{S}Rd,Rn,operand2
        BIC 指令舉例如下：
        BIC R1,R1,#0x0F ;將R1 的低4 位清零，其它位不變
        BIC R1,R2,R3 ;將拭的反碼和R2 相邏輯與，結果儲存到R1

        （3）比較指令
        CMP
        比較指令。指令使用暫存器Rn 的值減去operand2 的值，根據操作的結果更新CPSR中的相應條件標誌位，以便後面的指令根據相應的條件標誌來判斷是否執行。指令格式如下：
        CMP{cond} Rn,operand2
        CMP 指令舉例如下：
        CMP R1,#10 ;R1 與10 比較，設定相關標誌位
        CMP R1,R2 ;R1 與R2 比較，設定相關標誌位
        CMP 指令與SUBS 指令的區別在於CMP 指令不儲存運算結果。在進行兩個資料大小判斷時，常用CMP指令及相應的條件碼來操作。

        CMN
        負數比較指令。指令使用暫存器Rn 與值加上operand2 的值，根據操作的結果更新CPSR中的相應條件標誌位，以便後面的指令根據相應的條件標誌來判斷是否執行，指令格式如下：
        CMN{cond} Rn,operand2
        CMN R0,#1 ;R0+1,判斷R0 是否為1 的補碼，若是Z 置位
        CMN 指令與ADDS 指令的區別在於CMN 指令不儲存運算結果。CMN指令可用於負數比較，比如CMNR0，#1 指令則表示R0 與-1 比較，若R0 為-(即1 的補碼)，則Z 置位，否則Z復位。

        TST
        位測試指令。指令將暫存器Rn 的值與operand2 的值按位作邏輯與操作，根據操作的結果更新CPSR中相應的條件標誌位(當結果為0時，EQ位被設定)，以便後面指令根據相應的條件標誌來判斷是否執行。指令格式如下：
        TST{cond} Rn,operand2
        TST 指令舉例如下：
        TST R0,#0x01 ;判斷R0 的最低位是否為0
        TST R1,#0x0F ;判斷R1 的低4 位是否為0
        TST 指令與ANDS 指令的區別在於TST4 指令不儲存運算結果。TST指令通常於EQ、NE條件碼配合使用，當所有測試位均為0 時，EQ 有效，而只要有一個測試為不為0，則NE 有效。

        TEQ
        相等測試指令。指令暫存器Rn 的值與operand2 的值按位作邏輯異或操作，根據操作的結果更新CPSR中相應條件標誌位，以便後面的指令根據相應的條件標誌來判斷是否執行。指令格式如下：
        TEQ{cond} Rn,operand2
        TEQ 指令舉例如下：
        TEQ R0,R1 ;比較R0 與R1 是否相等(不影響V 位和C 位)
        TST 指令與EORS 指令的區別在於TST 指令不儲存運算結果。使用TEQ進行相等測試，常與EQNE 條件碼配合使用，當兩個資料相等時，EQ 有效，否則NE 有效。

        （4）乘法指令
        ARM7TDMI(-S)具有32×32 乘法指令、32×32 乘加指令、32×32結果為64 位的乘法指令。表A-5給出全部的ARM 乘法指令。

表A-5 全部的ARM 乘法指令

        MUL
        32 位乘法指令。指令將Rm 和Rs 中的值相乘，結果的低32 位儲存到Rd中。指令格式如下：
        MUL{cond}{S} Rd,Rm,Rs
        MUL 指令舉例如下：
        MUL R1,R2,R3 ;R1=R2×R3
        MULS R0,R3,R7 ;R0=R3×R7，同時設定CPSR 中的N位和Z 位

        MLA
        32 位乘加指令。指令將Rm 和Rs 中的值相乘，再將乘積加上第3 個運算元，結果的低32位儲存到Rd 中。指令格式如下：
        MLA{cond}{S} Rd,Rm,Rs,Rn
        MLA 指令舉例如下：
        MLA R1,R2,R3,R0 ;R1=R2×R3+10

        UMULL
        64 位無符號乘法指令。指令將Rm 和Rs 中的值作無符號數相乘，結果的低32位儲存到RsLo 中，而高32 位儲存到RdHi 中。指令格式如下：
        UMULL{cond}{S} RdLo,RdHi,Rm,Rs
        UMULL 指令舉例如下：
        UMULL R0,R1,R5,R8 ;(R1、R0)=R5×R8

        UMLAL
        64 位無符號乘加指令。指令將Rm 和Rs 中的值作無符號數相乘，64 位乘積與RdHi、RdLo相加，結果的低32 位儲存到RdLo 中，而高32 位儲存到RdHi 中。指令格式如下：
        UMLAL{cond}{S} RdLo,RdHi,Rm,Rs
        UMLAL 指令舉例如下：
        UMLAL R0,R1,R5,R8;(R1,R0)=R5×R8+(R1,R0)

        SMULL
        64 位有符號乘法指令。指令將Rm 和Rs 中的值作有符號數相乘，結果的低32位儲存到RdLo 中，而高32 位儲存到RdHi 中。指令格式如下：
        SMULL{cond}{S} RdLo,RdHi,Rm,Rs
        SMULL 指令舉例如下：
        SMULL R2,R3,R7,R6 ;(R3,R2)=R7×R6

        SMLAL
        64 位有符號乘加指令。指令將Rm 和Rs 中的值作有符號數相乘，64 位乘積與RdHi、RdLo，相加，結果的低32位儲存到RdLo 中，而高32 位儲存到RdHi 中。指令格式如下：
        SMLAL{cond}{S} RdLo,RdHi,Rm,Rs
        SMLAL 指令舉例如下：
        SMLAL R2,R3,R7,R6;(R3,R2)=R7×R6+(R3,R2)

1.3.3. ARM 跳轉指令

兩種方式可以實現程式的跳轉：

（1）使用跳轉指令直接跳轉，跳轉指令有跳轉指令B，帶連結的跳轉指令BL ，帶狀態切換的跳轉指令BX。

（2）直接向PC 暫存器賦值實現跳轉。

表A-6給出全部的ARM跳轉指令。

表A-6 ARM跳轉指令

B 跳轉指令，跳轉到指定的地址執行程式。

B{cond} label

舉例如下：

B WAITA ;跳轉到WAITA 標號處

B 0x1234 ;跳轉到絕對地址0x1234 處

跳轉到指令B 限制在當前指令的±32Mb 的範圍內。

BL 帶連結的跳轉指令。指令將下一條指令的地址拷貝到R14(即LR)連結暫存器中，然後跳轉到指定地址執行程式。
BL{cond} label

舉例如下：

BL DELAY

跳轉指令B 限制在當前指令的±32MB 的範圍內。BL 指令用於子程式呼叫。

       BX       帶狀態切換的跳轉指令。跳轉到Rm 指定的地址執行程式，若Rm 的位[0]為1，則跳轉時自動將CPSR 中的標誌T 置位，即把目標地址的程式碼解釋為Thumb程式碼;若Rm 的位[0]為0，則跳轉時自動將CPSR 中的標誌T 復位，即把目標地址的程式碼解釋為ARM程式碼。指令格式如下：
        BX{cond} Rm
       舉例如下：
        ADRL R0,ThumbFun+1
        BX R0 ;跳轉到R0 指定的地址，並根據R0 的最低位來切換處理器狀態

BLX

BLX目標地址：跳轉，改變狀態及儲存PC值

1.3.4. ARM 協處理器指令

5 ARM 支援協處理器操作，協處理器的控制要通過協處理器命令實現。表A-7給出全部的ARM協處理器指令。

表A-7 ARM 協處理器指令

        CDP
        協處理器資料操作指令。ARM 處理器通過CDP 指令通知ARM 協處理器執行特定的操作。該操作由協處理器完成，即對命令的引數的解釋與協處理器有關，指令的使用取決於協處理器。若協處理器不能成功地執行該操作，將產生未定義指令異常中斷。指令格式如下：
        CDP{cond}coproc,opcodel,CRd,CRn,CRm{,opcode2}
        其中： coproc 指令操作的協處理器名。標準名為pn,n 為0～15。
        opcodel 協處理器的特定操作碼。
        CRd 作為目標暫存器的協處理器暫存器。
        CRN 存放第1 個運算元的協處理器暫存器。
        CRm 存放第2 個運算元的協處理器暫存器。
        Opcode2 可選的協處理器特定操作碼。
        CDP 指令舉例如下：
        CDP p7,0,c0,c2,c3,0 ;協處理器7 操作，操作碼為0，可選操作碼為0
        CDP p6,1,c3,c4,c5 ;協處理器操作，操作碼為1

        LDC
        協處理器資料讀取指令。LDC指令從某一連續的記憶體單元將資料讀取到協處理器的暫存器中。協處理器資料的資料的傳送，由協處理器來控傳送的字數。若協處理器不能成功地執行該操作，將產生未定義指令異常中斷。指令格式如下：
        LDC{cond}{L} coproc,CRd,<地址>
        其中： L 可選字尾，指明是長整數傳送。
        coproc 指令操作的協處理器名。標準名為pn，n 為0～15
        CRd 作為目標寄存的協處理器暫存器。
        <地址> 指定的記憶體地址
        LDC 指令舉例如下：
        LDC p5,c2,[R2,#4];讀取R2+4指向的記憶體單元的資料，傳送到協處理器p5的c2暫存器中
        LDC p6,c2,[R1] ;讀取是指向的記憶體單元的資料，傳送到協處理器p6的c2 暫存器中

        STC
        協處理器資料寫入指令。STC指令將協處理器的暫存器資料寫入到某一連續的記憶體單元中。進行協處理器資料的資料傳送，由協處理器來控制傳送的字數。若協處理器不能成功地執行該操作，將產生未定義指令異常中斷。指令格式如下：
        STC{cond}{L} coproc,CRd,<地址>
        其中： L 可選字尾，指明是長整數傳送。
        coproc 指令操作的協處理器名。標準名為pn，n 為0～15
        CRd 作為目標寄存的協處理器暫存器。
        <地址> 指定的記憶體地址
        STC 指令舉例如下：
        STC p5,c1,[R0]
        STC p5,c1,[Ro,#-0x04]
        MCR
        ARM暫存器到協處理器暫存器的資料傳送指令。MCR 指令將ARM 處理器的暫存器中的資料傳送到協處理器的暫存器中。若協處理器不能成功地執行該操作，將產生未定義指令異常中斷。指令格式如下：
        MCR{cond}coproc,opcodel,Rd,CRn,CRm{,opcode2}
        其中：coproc 指令操作的協處理器名。標準名為pn，n 為0～15。
        cpcodel 協處理器的特定操作碼。
        RD 作為目標暫存器。
        CRn 存放第1 個運算元的協處理器暫存器
        CRm 存放第2 個運算元的協處理器暫存器。
        Opcode2 可選的協處理器特定操作碼。
        MCR 指令舉例如下：
        MCR p6,2,R7,c1,c2,
        MCR P7,0,R1,c3,c2,1,

        MRC
        協處理器暫存器到ARM暫存器到的資料傳送指令。MRC 指令將協處理器暫存器中的資料傳送到ARM 處理器的暫存器中。若協處理器不能成功地執行該操作。將產生未定義異常中斷。指令格式如下：
        MRC {cond}coproc,opcodel,Rd,CRn,CRm{,opcode2}
        其中：coproc 指令操作的協處理器名。標準名為pn，n為0～15。
        opcodel 協處理器的特定操作碼。
        Rd 作為目標暫存器。
        CRn 存放第1 個運算元的協處理器暫存器。
        CRm 存放第2 個運算元的協處理器暫存器。
        opcode2 可選的協處理器特定操作碼。
        MRC 指令舉例如下：
        MRC p5,2,R2,c3,c2
        MRC p7,0,R0,c1,c2,1

1.3.5. ARM 雜項指令

表A-8給出全部的ARM協處理器指令。

表A-8 ARM雜項指令

        SWI
        軟中斷指令。SWI 指令用於產生軟中斷，從而實現在使用者模式變換到管理模式，CPSR儲存到管理模式的SPSR中，執行轉移到SWI 向量，在其它模式下也可使用SWI 指令，處理同樣地切換到管理模式。指令格式如下：
        SWI{cond} immed_24
        其中：immed_24 24 位立即數，值為0～16777215 之間的整數。
        SWI 指令舉例如下：
        SWI 0 ;軟中斷，中斷立即數為0
        SWI 0x123456 ;軟中斷，中斷立即數為0x123456
        使用SWI 指令時，通常使用以下兩種方法進行傳遞引數，SWI 異常中斷處理程式就可以提供相關的服務，這兩種方法均是使用者軟體協定。SWI異常中斷處理程式要通過讀取引起軟中斷的SWI 指令，以取得24 位立即數。
        （A）指令24 位的立即數指定了使用者請求的服務型別，引數通過用暫存器傳遞。
        MOV R0,#34     ;設定了功能號為34
        SWI 12        ;呼叫12 號軟中斷
        （B）指令中的24 位立即數被忽略，使用者請求的服務型別由暫存器R0 的值決定，引數通過其它的通用暫存器傳遞。
        MOV R0,#12     ;呼叫12 號軟中斷
        MOV R1,#34     ;設定子功能號為34
        SWI 0       ;
        在SWI 異常中斷處理程式中，取出SWI 立即數的步驟為：首先確定引起軟中斷的SWI指令是ARM指令還時Thumb 指令，這可通過對SPSR 訪問得到：然後要取得該SWI 指令的地址，這可通過訪問LR 暫存器得到：接著讀出指令，分解出立即數。
        讀出SWI 立即數：
        T_bit EQU 0x20
        SWI_Hander
        STMFD SP!,{R0_R3,R12,LR}        ;現場保護
        MRS R0,SPSR                    ;讀取SPSR
        STMFD SP!,{R0}                    ;儲存SPSR
        TST R0,#T_bit                    ;測試T標誌位
        LDRNEH R0,[LR,#-2]                ;若是Thumb指令，讀取指令碼(16 位)
        BICNE R0,R0,#0xFF00            ;取得Thumb 指令的8 位立即數
        LDREQ R0,[LR,#-4]                ;若是ARM 指令，讀取指令碼(32 位)
        BICNQ R0,R0,#0xFF00000            ;取得ARM 指令的24 位立即數
        …
        LDMFD SP!,{R0-R3,R12,PC}^ ;SWI 異常中斷返回

        MRS
        讀狀態暫存器指令。在ARM 處理器中，只有MRS 指令可以狀態暫存器CPSR或SPSR讀出到通用暫存器中。指令格式如下：
        MRS{cond} Rd ,psr
        其中： Rd 目標暫存器。Rd 不允許為R15。
        psr CPSR 或SPSR
        MRS指令舉例如下：
        MRS R1,CPSR     ;將CPSR狀態暫存器讀取，儲存到R1 中
        MRS R2,SPSR     ;將SPSR狀態暫存器讀取，儲存到R2 中
        MRS 指令讀取CPSR，可用來判斷ALU 的狀態標誌，或IRQ、FIQ中斷是否允許等；在異常處理程式中，讀SPSR 可知道進行異常前的處理器狀態等。MRS 與MSR 配合使用，實現CPSR 或SPSR 暫存器的讀—修改---寫操作，可用來進行處理器模式切換()，允許/禁止IRQ/FIQ中斷等設定。另外，程式切換或允許異常中斷巢狀時，也需要使用MRS 指令讀取SPSR 狀態值。儲存起來。
        使能IRQ 中斷例程：
        ENABLE_IRQ
        MRS R0,CPSR
        BIC R0。R0,#0x80
        MSR CPSR_c,R0
        MOV PC,LR
        禁能IRQ 中斷例程：
        DISABLE_IRQ
        MRS R0,CPSR
        ORR R0,R0,#0x80
        MSR CPSR_c,R0
        MOV PC,LR

        MSR
        寫狀態暫存器指令。在ARM 處理器中。只有MSR 指令可以直接設定狀態暫存器CPSR或SPSR。指令格式如下：
        MSR{cond} psr_fields,#immed_8r
        MSR{cond} psr_fields,Rm
        其中： psr CPSR 或SPSR
        fields 指定傳送的區域。Fields 可以是以下的一種或多種(字母必須為小寫)：
        c 控制域遮蔽位元組(psr[7…0])
        x 擴充套件域遮蔽位元組(psr[15…8])
        s 狀態域遮蔽位元組(psr[23。…16])
        f 標誌域遮蔽位元組(psr[31…24])
        immed_8r 要傳送到狀態暫存器指定域的立即數，8 位。
        Rm 要傳送到狀態暫存器指定域的資料的源暫存器。
        MSR 指令舉例如下：
        MSR CPSR_c,#0xD3 ;CPSR[7…0]=0xD3，即切換到管理模式。
        MSR CPSR_cxsf,R3 ;CPSR=R3
        只有在特權模式下才能修改狀態暫存器。
        程式中不能通過MSR 指令直接修改CPSR 中的T 控制位來實現ARM 狀態/Thumb狀態的切換，必須使用BX 指令完成處理器狀態的切換(因為BX 指令屬轉移指令，它會打斷流水線狀態，實現處理器狀態切換)。MRS 與MSR 配合使用，實現CPSR或SPSR 暫存器的讀-修改-寫操作，可用來進行處理器模式切換、允許/禁止IRQ/FIQ 中斷等設定。
        堆疊指令實始化例程：
        INITSTACK
        MOV R0,LR ;儲存返回地址
        ;設定管理模式堆疊
        MSR CPSR_c,#0xD3
        LDR SP,StackSvc
                      ;設定中斷模式堆疊
        MSR CPSR_c,#0xD2
        LDR SP,StackIrq
        …

1.3.6. ARM 偽指令

       ARM 偽指令不是ARM 指令集中的指令，只是為了程式設計方便編譯器定義了偽指令，使用時可以像其它ARM 指令一樣使用，但在編譯時這些指令將被等效的ARM 指令代替。ARM偽指令有四條，分別為ADR 偽指令、ADRL 偽指令、LDR 偽指令和NOP 偽指令。
        ADR
        小範圍的地址讀取偽指令。ADR 指令將基於PC 相對偏移的地址值讀取到暫存器中。在彙編編譯源程式時，ADR偽指令被編譯器替換成一條合適的指令。通常，編譯器用一條ADD 指令或SUB 指令來實現該ADR 偽指令的功能，若不能用一條指令實現，則產生錯誤，編譯失敗。
        ADR 偽指令格式如下：
        ADR{cond} register,exper
        其中：register 載入的目標暫存器。
        exper 地址表示式。當地址值是非字地齊時，取值範圍-255～255 位元組之間；當地址是字對齊時，取值範圍-1020～1020位元組之間。
        對於基於PC 相對偏移的地址值時，給定範圍是相對當前指令地址後兩個字處(因為ARM7TDMI為三級流水線)。
        ADR 偽指令舉例如下：
        LOOP MOV R1, #0xF0
        …
        ADR R2, LOOP        ;將LOOP 的地址放入R2
        ADR R3, LOOP+4
        可以用ADR 載入地址，實現查表：
        …
        ADR R0,DISP_TAB     ;載入轉換表地址
        LDRB R1,[R0,R2]     ;使用R2作為引數，進行查表
        …
        DISP_TAB
        DCB0Xc0,0xF9,0xA4,0xB0,0x99,0x92,0x82,0xF8,0x80,0x90

        ADRL
        中等範圍的地址讀取偽指令。ADRL 指令將基於PC 相對偏移的地址值或基於暫存器相對偏移的地址值讀取到暫存器中，比ADR偽指令可以讀取更大範圍的地址。在彙編編譯源程式時，ADRL 偽指令被編譯器替換成兩個條合適的指令。若不能用兩條指令實現ADRL 偽指令功能，則產生錯誤，編譯失敗。ADRL偽指令格式如下：
        ADR{cond} register,exper
        其中：register 載入的目標暫存器。
        expr 地址表示式。當地址值是非字對齊時，取範圍-64K～64K 位元組之間；當地址值是字對齊時，取值範圍-256K～256K位元組之間。
        ADRL 偽指令舉例如下：
        ADRL R0,DATA_BUF
        …
        ADRL R1 DATA_BUF+80
        …
        DATA_BUF
        SPACE 100     ;定義100 位元組緩衝區
        可以且用ADRL 載入地址，實現程式跳轉，中等範圍地址的載入：
        …
        ADR LR,RETURNI            ;設定返回地址
        ADRL R1Thumb_Sub+1        ;取得了Thumb 子程式入口地址，且R1 的0 位置1
        BX R1                    ;呼叫Thumb子程式，並切換處理器狀態
        RETURNI
        …
        CODE16
        Thumb_Sub
        MOV R1,#10
        …

        LDR
        大範圍的地址讀取偽指令。LDR 偽指令用於載入32 位的立即數或一個地址值到指定暫存器。在彙編編譯源程式時，LDR偽指令被編譯器替換成一條合適的指令。若載入的常數未超出MOV 或MVN 的範圍，則使用MOV 或MVN 指令代替該LDR 偽指令，否則彙編器將常量放入字池，並使用一條程式相對偏移的LDR指令從文字池讀出常量。LDR 偽指令格式如下：
        LDR{cond} register,=expr/label_expr
        其中：register 載入的目標暫存器
        expr 32 位立即數。
        label_expr 基於PC 的地址表示式或外部表示式。
        LADR 偽指令舉例如下：。
        LDR R0,=0x123456        ;載入32 位立即數0x12345678
        LDR R0,=DATA_BUF+60    ;載入DATA_BUF 地址+60
        …
        LTORG                    ;宣告文字池
        偽指令LDR 常用於載入晶片外圍功能部件的暫存器地址(32 位立即數)，以實現各種控制操作載入32位立即數：
        …
        LDR R0,=IOPIN ;載入GPIO 暫存器IOPIN 的地址
        LDR R1,[R0] ;讀取IOPIN 暫存器的值
        …
        LDR R0,=IOSET
        LDR R1,=0x00500500
        STR R1,[R0] ;IOSET=0x00500500
        …
        從PC 到文字池的偏移量必須小於4KB。與ARM 指令的LDR 相比，偽指令的LDR的引數有“=”號

        NOP
        空操作偽指令。NOP 偽指令在彙編時將會被代替成ARM 中的空操作，比如可能為“MOV R0, R0”指令等，NOP 偽指令格式如下：
        NOP
        NOP
        NOP
        NOP
        SUBS R1, R1, #1
        BNE DELAY1
        …

1.4. 定址方式

1.4.1. 立即數定址

立即數前面有“#”號，並且如果是十六進位制數則在“#”後新增“0x”或“&”，二進位制數“#”後面加“%”。

1.4.2. 暫存器定址

1.4.3. 暫存器間接定址

以暫存器中的值作為運算元的地址，而運算元本身放在儲存器中。

例如：ADD R0，R1，[R2]

1.4.4. 基址變址定址

將暫存器的內容與指令中給出的地址偏移量相加，從而得到一個運算元的有效地址。

例如：LDR R0，[R1，#4] R0<-[R1+4]

1.4.5. 多暫存器定址

一條指令可以完成多個暫存器值得傳遞，一條指令傳送最多16個通用暫存器的值。

LDMIA R0，{R1，R2，R3，R4}

1.4.6. 相對定址

以程式計數器PC的值作為基地址，指令中的地址標號作為偏移量，將兩者相加後得到的運算元的有效地址。

例如：BL NEXT;

1.4.7. 堆疊定址

使用一個堆疊指標的專用暫存器指示當前操作位置

遞增堆疊：向高地址方向生長

遞減堆疊：向低地址方向生長

滿堆疊：堆疊指標指向最後壓入堆疊的有效資料

空堆疊：堆疊指標指向下一個要放入資料的空位置

2. GNU ARM混編

彙編源程式一般用於系統最基本的初始化：初始化堆疊指標、設定頁表、操作 ARM的協處理器等。這些初始化工作完成後就可以跳轉到C程式碼main函式中執行。

1.1. GNU組合語言語句格式

任何Linux彙編行都是如下結構：[<label>:][<instruction or directive or pseudo-instruction>} @comment

l instruction為指令

l directive為偽操作

l pseudo-instruction為偽指令

l <label>:為標號, GNU彙編中，任何以冒號結尾的識別符號都被認為是一個標號，而不一定非要在一行的開始。

l comment為語句的註釋

下面定義一個"add"的函式，最終返回兩個引數的和：

.section.text, “x”

.globaladd @ give the symbol “add” externallinkage

add:

ADD r0, r0, r1 @ add input arguments

MOV pc, lr @ return from subroutine

@ endof program

注意：

l ARM指令，偽指令，偽操作，暫存器名可以全部為大寫字母，也可全部為小寫字母，但不可大小寫混用。

l 如果語句太長，可以將一條語句分幾行來書寫，在行末用“\”表示換行（即下一行與本行為同一語句）。“\”後不能有任何字元，包含空格和製表符（Tab)。

1.2. GNU彙編程式中的標號symbol（或label）

標號只能由a～z，A～Z，0～9，“.”，_等（由點、字母、數字、下劃線等組成，除區域性標號外，不能以數字開頭）字元組成。

Symbol的本質：代表它所在的地址,因此也可以當作變數或者函式來使用。

l 段內標號的地址值在彙編時確定；

l 段外標號的地址值在連線時確定。

Symbol的分類：3類（依據標號的生成方式）。

<1> 基於PC的標號。基於PC的標號是位於目標指令前的標號或者程式中資料定義偽操作前的標號。這種標號在彙編時將被處理成PC值加上（或減去）一個數字常量，常用於表示跳轉指令”b”等的目標地址，或者程式碼段中所嵌入的少量資料。

<2> 基於暫存器的標號。基於暫存器的標號常用MAP和FIELD來定義，也可以用EQU來定義。這種標號在彙編時將被處理成暫存器的值加上（或減去）一個數字常量，常用於訪問資料段中的資料。

<3> 絕對地址。絕對地址是一個32位資料。它可以定址的範圍為[0，232-1]即可以直接定址整個記憶體空間。

特別說明：區域性標號Symbol

區域性標號主要在區域性範圍內使用，而且區域性標號可以重複出現。它由兩部組成：開頭是一個0-99直接的數字，後面緊接一個通常表示該區域性變數作用範圍的符號。區域性變數的作用範圍通常為當前段，也可以用ROUT來定義區域性變數的作用範圍。

區域性變數定義的語法格式：N{routname}

l N：為0~99之間的數字。

l routname：當前區域性範圍的名稱（為符號），通常為該變數作用範圍的名稱（用ROUT偽操作定義的）。

區域性變數引用的語法格式：%{F|B}{A|T}N{routname}

l %：表示引用操作

l N：為區域性變數的數字號

l routname：為當前作用範圍的名稱（用ROUT偽操作定義的）

l F：指示編譯器只向前搜尋

l B：指示編譯器只向後搜尋

l A：指示編譯器搜尋巨集的所有巢狀層次

l T：指示編譯器搜尋巨集的當前層次

例：使用區域性符號的例子，一段迴圈程式

subs r0, r0, #1 @每次迴圈使r0=r0-1

bne 1F @跳轉到1標號去執行

注意：

l 如果F和B都沒有指定，編譯器先向前搜尋，再向後搜尋

l 如果A和T都沒有指定，編譯器搜尋所有從當前層次到巨集的最高層次，比當前層次低的層次不再搜尋。

l 如果指定了routname，編譯器向前搜尋最近的ROUT偽操作，若routname與該ROUT偽操作定義的名稱不匹配，編譯器報告錯誤，彙編失敗。

1.3. GNU彙編程式中的分段

<1> .section偽操作

.section <section_name> {,”<flags>”}

Startsa new code or data section. Sections in GNU are called .text, a code section, .data, an initializeddata section, and .bss, an uninitialized data section.

Thesesections have default flags, and the linker understands the default names(similardirective to the armasm directive AREA).The following are allowable .section flags for ELF format files:

<Flag> Meaning

a allowable section

w writable section

x executable section

中文解釋：

使用者可以通過.section偽操作來自定義一個段,格式如下：

.section section_name [,"flags"[, %type[,flag_specific_arguments]]]

每一個段以段名為開始, 以下一個段名或者檔案結尾為結束。這些段都有預設的標誌（flags），聯結器可以識別這些標誌。(與arm asm中的AREA相同)。下面是ELF格式允許的段標誌flags：

<標誌> 含義

a 允許段

w 可寫段

x 執行段

例：定義一個“段”

.section.mysection @自定義資料段，段名為 “.mysection”

.align 2

strtemp:

.ascii "Temp string \n\0" @對這一句的理解，我覺得應該是：將"Temp string \n\0"這個字串儲存在以標號strtemp為起始地址的一段記憶體空間裡

<2> 彙編系統預定義的段名

l .text @程式碼段

l .data @初始化資料段.data Read-write initialized long data.

l .bss @未初始化資料段

l .sdata @ .sdata Read-write initialized short data.

l .sbss @

注意：源程式中.bss段應該在.text段之前。

1.4. GNU組合語言定義入口點

彙編程式的預設入口是_start標號，使用者也可以在連線指令碼檔案中用ENTRY標誌指明其它入口點。

例：定義入口點

.section .data

< initialized data here>

.section .bss

< uninitialized data here>

.section .text

.globl _start

_start:

1.5. GNU彙編程式中的巨集定義

格式如下：

.macro 巨集名引數名列表 @偽指令.macro定義一個巨集

巨集體

.endm @.endm表示巨集結束

如果巨集使用引數,那麼在巨集體中使用該引數時新增字首“\”。巨集定義時的引數還可以使用預設值。可以使用.exitm偽指令來退出巨集。

例：巨集定義

.macroSHIFTLEFT a, b

.if \b< 0

MOV \a,\a, ASR #-\b

.exitm

.endif

MOV \a,\a, LSL #\b

.endm

1.6. GNU彙編程式中的常數

<1> 十進位制數以非0數字開頭,如:123和9876；

<2> 二進位制數以0b開頭,其中字母也可以為大寫；

<3> 八進位制數以0開始,如:0456,0123；

<4> 十六進位制數以0x開頭,如:0xabcd,0X123f；

<5> 字串常量需要用引號括起來,中間也可以使用轉義字元,如: “You are welcome!\n”；

<6> 當前地址以“.”表示,在GNU彙編程式中可以使用這個符號代表當前指令的地址；

<7> 表示式：在彙編程式中的表示式可以使用常數或者數值, “-”表示取負數, “~”表示取補,“<>”表示不相等,其他的符號如:+、-、*、 /、%、<、<<、>、>>、|、&、^、!、==、>=、<=、&&、|| 跟C語言中的用法相似。

1.7. GNU ARM彙編的常用偽操作

在前面已經提到過了一些為操作，還有下面一些為操作：

l 資料定義偽操作： .byte，.short，.long，.quad，.float，.string/.asciz/.ascii，重複定義偽操作.rept，賦值語句.equ/.set ；

l 函式的定義；

l 對齊方式偽操作 .align；

l 原始檔結束偽操作.end；

l .include偽操作；

l if偽操作；

l .global/ .globl 偽操作；

l .type偽操作；

l 列表控制語句；

別於GNU AS彙編的通用偽操作,下面是ARM特有的偽操作：

.reg ，.unreq ，.code ，.thumb ，.thumb_func ，.thumb_set， .ltorg ，.pool

<1> 資料定義偽操作

l .byte:單位元組定義，如：.byte 1,2,0b01,0x34,072,'s' ；

l .short:定義雙位元組資料，如:.short 0x1234,60000 ；

l .long:定義4位元組資料，如:.long 0x12345678,23876565

l .quad:定義8位元組，如:.quad 0x1234567890abcd

l .float：定義浮點數，如：.float 0f-314159265358979323846264338327\

95028841971.693993751E-40 @ - pi

l .string/.asciz/.ascii：定義多個字串，如:

.string "abcd","efgh", "hello!"

.asciz "qwer","sun", "world!"

.ascii "welcome\0"

注意：ascii偽操作定義的字串需要自行新增結尾字元'\0'。

l .rept:重複定義偽操作, 格式如下：

.rept 重複次數

資料定義

.endr @結束重複定義

例：

.rept 3

.byte 0x23

.endr

l .equ/.set: 賦值語句, 格式如下：

.equ(.set)變數名，表示式

例：

.equ abc, 3 @讓abc=3

<2> 函式的定義偽操作

l 函式的定義,格式如下：

函式名:

函式體

返回語句

一般的,函式如果需要在其他檔案中呼叫, 需要用到.global偽操作將函式宣告為全域性函式。為了不至於在其他程式在呼叫某個C函式時發生混亂,對暫存器的使用我們需要遵循APCS準則。函式編譯器將處理函式程式碼為一段.global的彙編碼。

l 函式的編寫應當遵循如下規則：

a. a1-a4暫存器（引數、結果或暫存暫存器，r0到r3 的同義字）以及浮點暫存器f0-f3(如果存在浮點協處理器)在函式中是不必儲存的；

b. 如果函式返回一個不大於一個字大小的值，則在函式結束時應該把這個值送到 r0 中；

c. 如果函式返回一個浮點數，則在函式結束時把它放入浮點暫存器f0中；

d. 如果函式的過程改動了sp（堆疊指標，r13）、fp（框架指標，r11）、sl（堆疊限制，r10）、lr（連線暫存器，r14）、v1-v8（變數暫存器，r4 到 r11）和 f4-f7,那麼函式結束時這些暫存器應當被恢復為包含在進入函式時它所持有的值。

<3> .align .end .include .incbin偽操作

l .align:用來指定資料的對齊方式,格式如下:

.align [absexpr1, absexpr2]

以某種對齊方式,在未使用的儲存區域填充值. 第一個值表示對齊方式,4, 8,16或 32.第二個表示式值表示填充的值。

l .end:表明原始檔的結束。

l .include:可以將指定的檔案在使用.include 的地方展開,一般是標頭檔案,例如:

.include “myarmasm.h”

l .incbin偽操作可以將原封不動的一個二進位制檔案編譯到當前檔案中,使用方法如下:

.incbin"file"[,skip[,count]]

skip表明是從檔案開始跳過skip個位元組開始讀取檔案,count是讀取的字數.

<4> ..if偽操作

根據一個表示式的值來決定是否要編譯下面的程式碼, 用.endif偽操作來表示條件判斷的結束,中間可以使用.else來決定.if的條件不滿足的情況下應該編譯哪一部分程式碼。

.if有多個變種:

.ifdefsymbol @判斷symbol是否定義

.ifcstring1,string2 @字串string1和string2是否相等,字串可以用單引號括起來

.ifeqexpression @判斷expression的值是否為0

.ifeqsstring1,string2 @判斷string1和string2是否相等,字元串必須用雙引號括起來

.ifgeexpression @判斷expression的值是否大於等於0

.ifgtabsolute expression @判斷expression的值是否大於0

.ifleexpression @判斷expression的值是否小於等於0

.ifltabsolute expression @判斷expression的值是否小於0

.ifncstring1,string2 @判斷string1和string2是否不相等, 其用法跟.ifc恰好相反。

.ifndefsymbol, .ifnotdef symbol @判斷是否沒有定義symbol, 跟.ifdef恰好相反

.ifneexpression @如果expression的值不是0, 那麼編譯器將編譯下面的程式碼

.ifnesstring1,string2 @如果字串string1和string2不相等, 那麼編譯器將編譯下面的程式碼.

<5> .global .type .title .list

l .global/ .globl ：用來定義一個全域性的符號，格式如下:

.global symbol 或者 .globl symbol

l .type：用來指定一個符號的型別是函式型別或者是物件型別, 物件型別一般是資料, 格式如下:

.type 符號, 型別描述

例：

.globla

.data

.align4

.typea, @object

.sizea, 4

a:

.long10

例：

.section.text

.typeasmfunc, @function

.globlasmfunc

asmfunc:

mov pc,lr

<6> 列表控制語句:

.title：用來指定彙編列表的標題,例如:

.title “my program”

.list：用來輸出列表檔案.

<7> ARM特有的偽操作

l .reg: 用來給暫存器賦予別名,格式如下:

別名 .req 暫存器名

l .unreq: 用來取消一個暫存器的別名,格式如下:

.unreq 暫存器別名

注意被取消的別名必須事先定義過,否則編譯器就會報錯,這個偽操作也可以用來取消系統預製的別名, 例如r0, 但如果沒有必要的話不推薦那樣做。

l .code偽操作用來選擇ARM或者Thumb指令集,格式如下:

.code 表示式

　　如果表示式的值為16則表明下面的指令為Thumb指令,如果表示式的值為32則表明下面的指令為ARM指令.

l .thumb偽操作等同於.code 16, 表明使用Thumb指令, 類似的.arm等同於.code 32

l .force_thumb偽操作用來強制目標處理器選擇thumb的指令集而不管處理器是否支援

l .thumb_func偽操作用來指明一個函式是thumb指令集的函式

l .thumb_set偽操作的作用類似於.set, 可以用來給一個標誌起一個別名, 比.set功能增加的一點是可以把一個標誌標記為thumb函式的入口, 這點功能等同於.thumb_func

l .ltorg用於宣告一個資料緩衝池(literal pool)的開始,它可以分配很大的空間。

l .pool的作用等同.ltorg

l .space<number_of_bytes> {,<fill_byte>}

分配number_of_bytes位元組的資料空間，並填充其值為fill_byte，若未指定該值，預設填充0。（與armasm中的SPACE功能相同）

l .word <word1>{,<word2>} …插入一個32-bit的資料佇列。（與armasm中的DCD功能相同）可以使用.word把識別符號作為常量使用。

例：

Start:

valueOfStart:

.word Start

這樣程式的開頭Start便被存入了記憶體變數valueOfStart中。

l .hword<short1> {,<short2>} …

插入一個16-bit的資料佇列。（與armasm中的DCW相同）

1.8. GNU ARM彙編特殊字元和語法

<1> 程式碼行中的註釋符號: ‘@’

<2> 整行註釋符號: ‘#’

<3> 語句分離符號: ‘;’

<4> 立即數字首: ‘#’ 或 ‘$’

3. ARM GCC 內嵌彙編

對於基於ARM的RISC處理器，GNUC編譯器提供了在C程式碼中內嵌彙編的功能。這種非常酷的特性提供了C程式碼沒有的功能，比如手動優化軟體關鍵部分的程式碼、使用相關的處理器指令。這裡設想了讀者是熟練編寫ARM彙編程式讀者，因為該片文件不是ARM彙編手冊。同樣也不是C語言手冊。這篇文件假設使用的是GCC 4 的版本，但是對於早期的版本也有效。

GCCasm 宣告

讓我們以一個簡單的例子開始。就像C中的宣告一樣，下面的宣告程式碼可能出現在你的程式碼中。

/*NOP 例子 */

asm("movr0,r0");

該語句的作用是將r0移動到r0中。換句話講他並不幹任何事。典型的就是NOP指令，作用就是短時的延時。

請接著閱讀和學習這篇文件，因為該宣告並不像你想象的和其他的C語句一樣。內嵌彙編使用匯編指令就像在純彙編程式中使用的方法一樣。可以在一個asm宣告中寫多個彙編指令。但是為了增加程式的可讀性，最好將每一個彙編指令單獨放一行。

asm(

"mov r0, r0\n\t"

"mov r0, r0"

);

換行符和製表符的使用可以使得指令列表看起來變得美觀。你第一次看起來可能有點怪異，但是當C編譯器編譯C語句的是候，它就是按照上面（換行和製表）生成彙編的。到目前為止，彙編指令和你寫的純彙編程式中的程式碼沒什麼區別。但是對比其它的C宣告，asm的常量和暫存器的處理是不一樣的。通用的內嵌彙編模版是這樣的。

asm(code : output operand list : input operand list : clobberlist);

彙編和C語句這間的聯絡是通過上面asm宣告中可選的outputoperand list和input operand list。Clobber list後面再講。

下面是將C語言的一個整型變數傳遞給彙編，邏輯左移一位後在傳遞給C語言的另外一個整型變數。

/* Rotating bits example */

asm("mov %[result], %[value], ror #1" :[result] "=r" (y) : [value] "r" (x));

每一個asm語句被冒號（:）分成了四個部分。

彙編指令放在第一部分中的“”中間。

"mov %[result], %[value], ror #1"

接下來是冒號後的可選擇的output operand list，每一個條目是由一對[]（方括號）和被他包括的符號名組成，它後面跟著限制性字串，再後面是圓括號和它括著的C變數。這個例子中只有一個條目。

[result] "=r" (y)

接著冒號後面是輸入操作符列表，它的語法和輸入操作列表一樣

[value] "r" (x)

破壞符列表，在本例中沒有使用

就像上面的NOP例子，asm宣告的4個部分中，只要最尾部沒有使用的部分都可以省略。但是有有一點要注意的是，上面的4個部分中只要後面的還要使用，前面的部分沒有使用也不能省略，必須空但是保留冒號。下面的一個例子就是設定ARMSoc的CPSR暫存器，它有input但是沒有output operand。

asm("msr cpsr,%[ps]" : : [ps]"r"(status))

即使彙編程式碼沒有使用，程式碼部分也要保留空字串。下面的例子使用了一個特別的破壞符，目的就是告訴編譯器記憶體被修改過了。這裡的破壞符在下面的優化部分在講解。

asm("":::"memory");

為了增加程式碼的可讀性，你可以使用換行，空格，還有C風格的註釋。

asm("mov %[result], %[value], ror#1"

: [result]"=r" (y) /*Rotation result. */

: [value]"r" (x) /*Rotated value. */

: /* No clobbers */

);

在程式碼部分%後面跟著的是後面兩個部分方括號中的符號，它指的是相同符號操作列表中的一個條目。

%[result]表示第二部分的C變數y，%[value]表示三部分的C變數x；

符號操作符的名字使用了獨立的名稱空間。這就意味著它使用的是其他的符號表。簡單一點就是說你不必關心使用的符號名在C程式碼中已經使用了。在早期的C程式碼中，迴圈移位的例子必須要這麼寫：

asm("mov %0, %1, ror #1" :"=r" (result) : "r" (value))

在彙編程式碼中運算元的引用使用的是%後面跟一個數字，%1代表第一個運算元，%2程式碼第二個運算元，往後的類推。這個方法目前最新的編譯器還是支援的。但是它不便於維護程式碼。試想一下，你寫了大量的彙編指令的程式碼，要是你想插入一個運算元，那麼你就不得不從新修改運算元編號。

優化C程式碼

有兩種情況決定了你必須使用匯編。1st，C限制了你更加貼近底層操作硬體，比如，C中沒有直接修改程式狀態暫存器（PSR）的宣告。2nd就是要寫出更加優化的程式碼。毫無疑問GNUC程式碼優化器做的很好，但是他的結果和我們手工寫的彙編程式碼相差很遠。

這一部分有一點很重要，也是被別人忽視最多的就是：我們在C程式碼中通過內嵌彙編指令新增的彙編程式碼，也是要被C編譯器的優化器處理的。讓我們下面做個試驗來看看吧。

下面是程式碼例項。

bigtree@just:~/embedded/basic-C$ arm-linux-gcc -c test.c

bigtree@just:~/embedded/basic-C$ arm-linux-objdump -D test.o

編譯器選擇r3作為迴圈移位使用。它也完全可以選擇為每一個C變數分配暫存器。Load或者store一個值並不顯式的進行。下面是其它編譯器的編譯結果。

E420A0E1 mov r2, r4, ror #1 @ y, x

編譯器為每一個運算元選擇一個相應的暫存器，將操作過的值cache到r4中，然後傳遞該值到r2中。這個過程你能理解不？

有的時候這個過程變得更加糟糕。有時候編譯器甚至完全拋棄你嵌入的彙編程式碼。C編譯器的這種行為，取決於程式碼優化器的策略和嵌入彙編所處的上下文。如果在內嵌彙編語句中不使用任何輸出部分，那麼C程式碼優化器很有可能將該內嵌語句完全刪除。比如NOP例子，我們可以使用它作為延時操作，但是對於編譯器認為這影響了程式的執行速速，認為它是沒有任何意義的。

上面的解決方法還是有的。那就是使用volatile關鍵字。它的作用就是禁止優化器優化。將NOP例子修改過後如下：

/* NOP example, revised */

asm volatile("movr0, r0");

下面還有更多的煩惱等著我們。一個設計精細的優化器可能重新排列程式碼。看下面的程式碼：

i++;

if (j == 1)

x += 3;

i++;

優化器肯定是要從新組織程式碼的，兩個i++並沒有對if的條件產生影響。更進一步的來講，i的值增加2，僅僅使用一條ARM彙編指令。因而程式碼要重新組織如下：

if (j == 1)

x += 3;

i += 2;

這樣節省了一條ARM指令。結果是：這些操作並沒有得到許可。

這些將對你的程式碼產生很到的影響，這將在下面介紹。下面的程式碼是c乘b，其中c和b中的一個或者兩個可能會被中斷處理程式修改。進入該程式碼前先禁止中斷，執行完該程式碼後再開啟中斷。

asm volatile("mrs r12,cpsr\n\t"

"orr r12, r12, #0xC0\n\t"

"msr cpsr_c, r12\n\t" ::: "r12", "cc");

c *= b; /* This may fail. */

asm volatile("mrs r12, cpsr\n"

"bic r12, r12, #0xC0\n"

"msr cpsr_c, r12" ::: "r12", "cc");

但是不幸的是針對上面的程式碼，優化器決定先執行乘法然後執行兩個內嵌彙編，或相反。這樣將會使得我們的程式碼變得毫無意義。

我們可以使用clobberlist幫忙。上面例子中的clobber list如下：

"r12","cc"

上面的clobber list將會將向編譯器傳達如下資訊，修改了r12和程式狀態暫存器的標誌位。Btw，直接指明使用的暫存器，將有可能阻止了最好的優化結果。通常你只要傳遞一個變數，然後讓編譯器自己選擇適合的暫存器。另外暫存器名，cc（condition registor 狀態暫存器標誌位），memory都是在clobber list上有效的關鍵字。它用來向編譯器指明，內嵌彙編指令改變了記憶體中的值。這將強迫編譯器在執行彙編程式碼前儲存所有快取的值，然後在執行完彙編程式碼後重新載入該值。這將保留程式的執行順序，因為在使用了帶有memory clobber的asm宣告後，所有變數的內容都是不可預測的。

asm volatile("mrs r12,cpsr\n\t"

"orr r12, r12, #0xC0\n\t"

"msr cpsr_c, r12\n\t" :: : "r12", "cc","memory");

c *= b; /* This is safe. */

asm volatile("mrs r12, cpsr\n"

"bic r12, r12, #0xC0\n"

"msr cpsr_c, r12" ::: "r12", "cc","memory");

使所有的快取的值都無效，只是區域性最優（suboptimal）。你可以有選擇性的新增dummyoperand 來人工新增依賴。

asm volatile("mrs r12,cpsr\n\t"

"orr r12, r12, #0xC0\n\t"

"msr cpsr_c, r12\n\t" : "=X" (b) :: "r12","cc");

c *= b; /* This is safe. */

asm volatile("mrs r12

上面的第一個asm試圖修改變數先b，第二個asm試圖修改c。這將保留三個語句的執行順序，而不要使快取的變數無效。

理解優化器對內嵌彙編的影響很重要。如果你讀到這裡還是雲裡霧裡，最好是在看下個主題之前再把這段文章讀幾遍^_^。

Input and output operands

前面我們學到，每一個input和output operand，由被方括號[]中的符號名，限制字串，圓括號中的C表示式構成。

這些限制性字串有哪些，為什麼我們需要他們？你應該知道每一條彙編指令只接受特定型別的運算元。例如：跳轉指令期望的跳轉目標地址。不是所有的記憶體地址都是有效的。因為最後的opcode只接受24位偏移。但矛盾的是跳轉指令和資料交換指令都希望暫存器中儲存的是32位的目標地址。在所有的例子中，C傳給operand的可能是函式指標。所以面對傳給內嵌彙編的常量、指標、變數，編譯器必須要知道怎樣組織到彙編程式碼中。

對於ARM核的處理器，GCC 4 提供了一下的限制。

Constraint	Usage in ARM state	Usage in Thumb state
f	Floating point registers f0 .. f7	Not available
G	Immediate floating point constant	Not available
H	Same a G, but negated	Not available
I	Immediate value in data processing instructions e.g. ORR R0, R0, #operand	Constant in the range 0 .. 255 e.g. SWI operand
J	Indexing constants -4095 .. 4095 e.g. LDR R1, [PC, #operand]	Constant in the range -255 .. -1 e.g. SUB R0, R0, #operand
K	Same as I, but inverted	Same as I, but shifted
L	Same as I, but negated	Constant in the range -7 .. 7 e.g. SUB R0, R1, #operand
l	Same as r	Registers r0..r7 e.g. PUSH operand
M	Constant in the range of 0 .. 32 or a power of 2 e.g. MOV R2, R1, ROR #operand	Constant that is a multiple of 4 in the range of 0 .. 1020 e.g. ADD R0, SP, #operand
m	Any valid memory address
N	Not available	Constant in the range of 0 .. 31 e.g. LSL R0, R1, #operand
o	Not available	Constant that is a multiple of 4 in the range of -508 .. 508 e.g. ADD SP, #operand
r	General register r0 .. r15 e.g. SUB operand1, operand2, operand3	Not available
W	Vector floating point registers s0 .. s31	Not available
X	Any operand

= ：Write-only operand, usually used for all output operands + ：Read-write operand, must be listed as an output operand & ：A register that should be used for output only

Output operands必須為write-only，相應C表示式的值必須是左值。Input operands必須為read-only。C編譯器是沒有能力做這個檢查。

比較嚴格的規則是：不要試圖向input operand寫。但是如果你想要使用相同的operand作為input和output。限制性modifier（+）可以達到效果。例子如下：

asm("mov %[value], %[value], ror #1" : [value]"+r" (y))

和上面例子不一樣的是，最後的結果儲存在input variable中。

可能modifier + 不支援早期的編譯器版本。慶幸的是這裡提供了其他解決辦法，該方法在最新的編譯器中依然有效。對於input operators有可能使用單一的數字n在限制字串中。使用數字n可以告訴編譯器使用的第n個operand，operand都是以0開始計數。下面是例子：

asm("mov %0, %0, ror #1" : "=r" (value) :"0" (value))

限制性字串“0”告訴編譯器，使用和第一個output operand使用同樣input register。

請注意，在相反的情況下不會自動實現。如果我沒告訴編譯器那樣做，編譯器也有可能為input和output選擇相同的暫存器。第一個例子中就為input和output選擇了r3。

在多數情況下這沒有什麼，但是如果在input使用前output已經被修改過了，這將是致命的。在input和output使用不同暫存器的情況下，你必須使用&modifier來限制outputoperand。下面是程式碼示例：

asm volatile("ldr %0, [%1]""\n\t"

"str %2, [%1, #4]""\n\t"

: "=&r" (rdv)

: "r"(&table), "r" (wdv)

: "memory");

在以張表中讀取一個值然後在寫到該表的另一個位置。

其他

內嵌彙編作為預處理巨集

要是經常使用使用部分彙編，最好的方法是將它以巨集的形式定義在標頭檔案中。使用該標頭檔案在嚴格的ANSI模式下會出現警告。為了避免該類問題，可以使用__asm__代替asm，__volatile__代替volatile。這可以等同於別名。下面就是個例程：

#define BYTESWAP(val) \

__asm__ __volatile__ ( \

"eor r3, %1, %1, ror #16\n\t" \

"bic r3, r3, #0x00FF0000\n\t" \

"mov %0, %1, ror #8\n\t" \

"eor %0, %0, r3, lsr #8" \

: "=r" (val) \

: "0"(val) \

: "r3", "cc" \

);

C 樁函式

巨集定義包含的是相同的程式碼。這在大型routine中是不可以接受的。這種情況下最好定義個樁函式。

unsigned long ByteSwap(unsigned longval)

{

asm volatile (

"eor r3, %1, %1, ror #16\n\t"

"bic r3, r3, #0x00FF0000\n\t"

"mov %0, %1, ror #8\n\t"

"eor %0, %0, r3, lsr #8"

: "=r" (val)

: "0"(val)

: "r3"

);

return val;

}

替換C變數的符號名

預設的情況下，GCC使用同函式或者變數相同的符號名。你可以使用asm宣告，為彙編程式碼指定一個不同的符號名

unsigned long value asm("clock") = 3686400

這個宣告告訴編譯器使用了符號名clock代替了具體的值。

替換C函式的符號名

為了改變函式名，你需要一個原型宣告，因為編譯器不接受在函式定義中出現asm關鍵字。

extern long Calc(void) asm ("CALCULATE")

呼叫函式calc()將會建立呼叫函式CALCULATE的彙編指令。

強制使用特定的暫存器

區域性變數可能儲存在一個暫存器中。你可以利用內嵌彙編為該變數指定一個特定的暫存器。

void Count(void) {

register unsigned char counterasm("r3");

... some code...

asm volatile("eor r3, r3,r3");

... more code...

}

彙編指令“eor r3, r3, r3”，會將r3清零。Waring：該例子在到多數情況下是有問題的，因為這將和優化器相沖突。因為GCC不會預留其它暫存器。要是優化器認為該變數在以後一段時間沒有使用，那麼該暫存器將會被再次使用。但是編譯器並沒有能力去檢查是否和編譯器預先定義的暫存器有衝突。如果你用這種方式指定了太多的暫存器，編譯器將會在程式碼生成的時候耗盡暫存器的。

臨時使用暫存器

如果你使用了暫存器，而你沒有在input或output operand傳遞，那麼你就必須向編譯器指明這些。下面的例子中使用r3作為scratch 暫存器，通過在clobber list中寫r3，來讓編譯器得知使用該暫存器。由於ands指令跟新了狀態暫存器的標誌位，使用cc在clobber list中指明。

asm volatile(

"ands r3, %1, #3" "\n\t"

"eor %0, %0, r3" "\n\t"

"addne %0, #4"

: "=r" (len)

: "0" (len)

: "cc", "r3"

);

最好的方法是使用樁函式並且使用區域性臨時變數

暫存器的用途

比較好的方法是分析編譯後的彙編列表，並且學習C 編譯器生成的程式碼。下面的列表是編譯器將ARM核暫存器的典型用途，知道這些將有助於理解程式碼。

Register	Alt. Name	Usage
r0	a1	First function argument Integer function result Scratch register
r1	a2	Second function argument Scratch register
r2	a3	Third function argument Scratch register
r3	a4	Fourth function argument Scratch register
r4	v1	Register variable
r5	v2	Register variable
r6	v3	Register variable
r7	v4	Register variable
r8	v5	Register variable=
r9	v6	rfp Register variable Real frame pointer
r10	sl	Stack limit
r11	fp	Argument pointer
r12	ip	Temporary workspace
r13	sp	Stack pointer
r14	lr	Link register Workspace
r15	pc	Program counter

ARM指令集詳解

1. 彙編

1.1. 通用暫存器

1.2. 指令格式

1.3. 指令集

1.3.1. ARM 儲存器訪問指令

1.3.2. ARM 資料處理指令

1.3.3. ARM 跳轉指令

1.3.4. ARM 協處理器指令

1.3.5. ARM 雜項指令

1.3.6. ARM 偽指令

1.4. 定址方式

1.4.1. 立即數定址

1.4.2. 暫存器定址

1.4.3. 暫存器間接定址

1.4.4. 基址變址定址

1.4.5. 多暫存器定址

1.4.6. 相對定址

1.4.7. 堆疊定址

2. GNU ARM混編

1.1. GNU組合語言語句格式

1.2. GNU彙編程式中的標號symbol（或label）

1.3. GNU彙編程式中的分段

1.4. GNU組合語言定義入口點

1.5. GNU彙編程式中的巨集定義

1.6. GNU彙編程式中的常數

1.7. GNU ARM彙編的常用偽操作

1.8. GNU ARM彙編特殊字元和語法

3. ARM GCC 內嵌彙編

相關文章