ARMCC和GCC編譯ARM程式碼的軟浮點和硬浮點問題

CopperDong發表於2017-11-08

本文介紹了ARM程式碼編譯時的軟浮點(soft-float)和硬浮點(hard-float)的編譯以及連結實現時的不同。從VFP浮點單元的引入到軟浮點(soft-float)和硬浮點(hard-float)的概念，然後是在GCC和ARMCC RVCT工具鏈下的具體編譯引數。

VFP (vector floating-point)

從ARMv5開始，就有可選的 Vector Floating Point (VFP) 模組，當然最新的如 Cortex-A8, Cortex-A9 和 Cortex-A5 可以配置成不帶VFP的模式供晶片廠商選擇。VFP經過若干年的發展，有VFPv2 (一些 ARM9 / ARM11)、 VFPv3-D16（只使用16個浮點暫存器，預設為32個）和VFPv3+NEON (如大多數的Cortex-A8晶片) 。對於包含NEON的ARM晶片，NEON一般和VFP公用暫存器。

硬浮點Hard-float

編譯器將程式碼直接編譯成發射給硬體浮點協處理器（浮點運算單元FPU）去執行。FPU通常有一套額外的暫存器來完成浮點引數傳遞和運算。使用實際的硬體浮點運算單元FPU當然會帶來效能的提升。因為往往一個浮點的函式呼叫需要幾個或者幾十個時鐘週期。

軟浮點 Soft-float

編譯器把浮點運算轉換成浮點運算的函式呼叫和庫函式呼叫，沒有FPU的指令呼叫，也沒有浮點暫存器的引數傳遞。浮點引數的傳遞也是通過ARM暫存器或者堆疊完成。現在的Linux系統預設編譯選擇使用hard-float，即使系統沒有任何浮點處理器單元，這就會產生非法指令和異常。因而一般的系統映象都採用軟浮點以相容沒有VFP的處理器。

armel和armhf ABI
在armel中，關於浮點數計算的約定有三種。以gcc為例，對應的-mfloat-abi引數值有三個：soft,softfp,hard。soft是指所有浮點運算全部在軟體層實現，效率當然不高，會存在不必要的浮點到整數、整數到浮點的轉換，只適合於早期沒有浮點計算單元的ARM處理器；softfp是目前armel的預設設定，它將浮點計算交給FPU處理，但函式引數的傳遞使用通用的整型暫存器而不是FPU暫存器；hard則使用FPU浮點暫存器將函式引數傳遞給FPU處理。需要注意的是，在相容性上，soft與後兩者是相容的，但softfp和hard兩種模式不相容。預設情況下，armel使用softfp，因此將hard模式的armel單獨作為一個abi，稱之為armhf。而使用hard模式，在每次浮點相關函式呼叫時，平均能節省20個CPU週期。對ARM這樣每個週期都很重要的體系結構來說，這樣的提升無疑是巨大的。在完全不改變原始碼和配置的情況下，在一些應用程式上，使用armhf能得到20%——25%的效能提升。對一些嚴重依賴於浮點運算的程式，更是可以達到300%的效能提升。

Soft-float和hard-float的編譯選項

在CodeSourcery gcc的編譯引數上，使用-mfloat-abi=name來指定浮點運算處理方式。-mfpu=name來指定浮點協處理的型別。可選型別如fpa，fpe2，fpe3，maverick，vfp，vfpv3，vfpv3-fp16，vfpv3-d16，vfpv3-d16-fp16，vfpv3xd，vfpv3xd-fp16，neon，neon-fp16，vfpv4，vfpv4-d16，fpv4-sp-d16，neon-vfpv4等。使用-mfloat-abi=hard (等價於-mhard-float) -mfpu=vfp來選擇編譯成硬浮點。使用-mfloat-abi=softfp就能相容帶VFP的硬體以及soft-float的軟體實現，執行時的聯結器ld.so會在執行浮點運算時對於運算單元的選擇，是直接的硬體呼叫還是庫函式呼叫，是執行/lib還是/lib/vfp下的libm。-mfloat-abi=soft （等價於-msoft-float）直接呼叫軟浮點實現庫。

在ARM RVCT工具鏈下，定義fpu模式：

? --fpu softvfp
? --fpu softvfp+vfpv2
? --fpu softvfp+vfpv3
? --fpu softvfp+vfpv_fp16
? --fpu softvfp+vfpv_d16
? --fpu softvfp+vfpv_d16_fp16.

定義浮點運算型別

--fpmode ieee_full : 所有單精度float和雙精度double的精度都要和IEEE標準一致，具體的模式可以在執行時動態指定；

--fpmode ieee_fixed ：舍入到最接近的實現的IEEE標準，不帶不精確的異常；

--fpmode ieee_no_fenv ：舍入到最接近的實現的IEEE標準，不帶異常；

--fpmode std ：非規格數flush到0、舍入到最接近的實現的IEEE標準，不帶異常；

--fpmode fast ：更積極的優化，可能會有一點精度損失。

一個浮點軟連結實現的彙編例子

IMPORT __softfp_cos

BL __softfp_cos

ARMCC fplib浮點運算庫

__aeabi_dadd 浮點double型別資料的加法，__aeabi_fdiv 單精度浮點除法。

附錄：常見的晶片和VFP配置

Partial reference of SoC and supported ISAs

Manufacturerhttp://houh-1984.blog.163.com/	SoC	architecture	VFP	SIMD	Notes
Freescale	iMX5x	armv7	VFPv3	NEON	Cortex-A8; NEON only reliable in Tape-Out 3 or above
Nvidia	Tegra2	armv7	VFPv3 D16	none
Marvell	Dove	armv7	VFPv3 D16	iwMMXt
Texas Instruments	OMAP3xxx	armv7	VFPv3	NEON	Cortex-A8
Texas Instruments	OMAP4xxx	armv7	VFPv3	NEON	Cortex-A9
Texas Instruments	OMAP5xxx	armv7	VFPv4	NEON	Cortex-A15 (ARMv7-A) + Cortex-M4 (ARMv7-ME)
Qualcomm	Snapdragon	armv7	VFPv3	NEON[1]	Qualcomm "Scorpion" core
Samsung	S5PC100	armv7	VFPv3	NEON	Cortex-A8
Allwinner	A1x	armv7	VFPv3	NEON	Cortex-A8

識別浮點常量問題(編譯原理實驗二）
2018-09-22
編譯原理
[譯]浮點數的危害
2016-10-24
iOS浮點數精度問題
2018-07-13
iOS
JS中浮點數精度問題
2019-03-03
JS
js浮點數丟失問題
2019-05-03
JS
一個浮點數計算的問題
2014-03-17
MySQL 有意思的浮點數和定點數
2017-03-10
MySql
詳談IEEE浮點數編碼機制
2019-02-22
浮點指令
2015-11-15
浮點數
2024-06-07
補碼、反碼、浮點數
2024-10-16
匹配浮點數的正規表示式程式碼
2017-02-25
浮點數的理解
2020-10-23
有關 PHP 和 js 浮點運算的坑
2017-10-12
PHPJS
CSS如何清除浮動的方法和優缺點
2017-02-10
CSS
javascript浮點數精確計算程式碼
2017-03-17
JavaScript
javascript浮點數計算精度問題介紹
2017-04-12
JavaScript
【求教：如何解決 java 浮點數精度問題】
2003-06-21
Java
一個浮點數跨平臺產生的問題
2018-03-03
浮點數小知識點
2018-09-22
Delphi程式碼最佳化（三）浮點篇 (轉)
2007-12-06
全面總結 JS 中浮點數運算問題
2019-10-19
JS
iOS socket通訊，編解碼，浮點型資料解析
2017-12-13
iOS
關於浮點指令
2012-12-03
js實現的浮點數取整程式碼例項
2017-03-17
JS
c中int型和浮點型的格式話輸出
2024-07-27
WebGL著色器32位浮點數精度損失問題
2019-07-29
Web
JavaScript解決浮點數算數運算精度問題
2018-07-03
JavaScript
二進位制小數和IEEE浮點標準
2021-08-31
八進位制，十六進位制和浮點數
2020-11-14
Java中浮點數的坑
2021-05-16
Java
我的IEEE浮點數工具
2004-12-01
Java浮點數float，bigdecimal和double精確計算的精度誤差問題總結
2017-12-12
JavaDecimal
【譯】將字元轉換為雙精度浮點型
2019-01-14
字元
可以提取浮點數的正規表示式程式碼例項
2017-02-27
關於JS的浮點數計算精度問題解決方案
2021-09-09
JS
淺談浮點數（一）
2021-08-03
轉換成浮點數
2020-12-30