深入理解浮點數的運算

AH20發表於2024-10-18

原文網址 : https://www.cnblogs.com/AH20/p/18474059

浮點數的運算步驟

浮點數的加減運算一般由以下五個步驟完成：對階、尾數運算、規格化、舍入處理、溢位判斷

所謂對階是指將兩個進行運算的浮點數的階碼對齊的操作。對階的目的是為使兩個浮點數的尾數能夠進行加減運算。因為，當進行 $ M_{x} \times 2^{E_{x}}$與 $ M_{y} \times 2^ {E_{y}} $ 加減運算時，只有使兩浮點數的指數值部分相同，才能將相同的指數值作為公因數提出來，然後進行尾數的加減運算。對階的具體方法是：首先求出兩浮點數階碼的差，即 $\Delta E = E_{x} - E_{y}$ ，將小階碼加上⊿E，使之與大階碼相等，同時將小階碼對應的浮點數的尾數右移相應位數，以保證該浮點數的值不變。幾點注意：

對階的原則是小階對大階，之所以這樣做是因為若大階對小階，則尾數的數值部分的高位需移出，而小階對大階移出的是尾數的數值部分的低位，這樣損失的精度更小。
若⊿E＝0，說明兩浮點數的階碼已經相同，無需再做對階操作了。
採用補碼錶示的尾數右移時，符號位保持不變。
由於尾數右移時是將最低位移出，會損失一定的精度，為減少誤差，可先保留若干移出的位，供以後舍入處理用。

尾數運算

尾數運算就是進行完成對階後的尾數相加減。這裡採用的就是我們前面講過的純小數的定點數加減運算。

結果規格化

在機器中，為保證浮點數表示的唯一性，浮點數在機器中都是以規格化形式儲存的。對於IEEE754標準的浮點數來說，就是尾數必須是1.M的形式。由於在進行上述兩個定點小數的尾數相加減運算後，尾數有可能是非規格化形式，為此必須進行規格化操作。

規格化操作包括左規和右規兩種情況。

左規操作：將尾數左移，同時階碼減值，直至尾數成為1.M的形式。例如，浮點數0.0011·25是非規格化的形式，需進行左規操作，將其尾數左移3位，同時階碼減3，就變成1.1100·22規格化形式了。

右規操作：將尾數右移1位，同時階碼增1，便成為規格化的形式了。要注意的是，右規操作只需將尾數右移一位即可，這種情況出現在尾數的最高位（小數點前一位）運算時出現了進位，使尾數成為10.xxxx或11.xxxx的形式。例如，10.0011·25右規一位後便成為1.00011·26的規格化形式了。

舍入處理

浮點運算在對階或右規時，尾數需要右移，被右移出去的位會被丟掉，從而造成運算結果精度的損失。為了減少這種精度損失，可以將一定位數的移出位先保留起來，稱為保護位，在規格化後用於舍入處理。

IEEE754標準列出了四種可選的舍入處理方法：

就近舍入（round to nearest）這是標準列出的預設舍入方式，其含義相當於我們日常所說的“四捨五入”。例如，對於32位單精度浮點數來說，若超出可儲存的23位的多餘位大於等於100…01，則多餘位的值超過了最低可表示位值的一半，這種情況下，舍入的方法是在尾數的最低有效位上加1；若多餘位小於等於011…11，則直接捨去；若多餘位為100…00，此時再判斷尾數的最低有效位的值，若為0則直接捨去，若為1則再加1。
朝+∞舍入（round toward +∞）對正數來說，只要多餘位不為全0，則向尾數最低有效位進1；對負數來說，則是簡單地捨去。
朝-∞舍入（round toward -∞）與朝+∞舍入方法正好相反，對正數來說，只是簡單地捨去；對負數來說，只要多餘位不為全0，則向尾數最低有效位進1。
朝0舍入（round toward 0）即簡單地截斷捨去，而不管多餘位是什麼值。這種方法實現簡單，但容易形成累積誤差，且舍入處理後的值總是向下偏差。

溢位判斷

與定點數運算不同的是，浮點數的溢位是以其運算結果的階碼的值是否產生溢位來判斷的。若階碼的值超過了階碼所能表示的最大正數，則為上溢，進一步，若此時浮點數為正數，則為正上溢，記為+∞，若浮點數為負數，則為負上溢，記為-∞；若階碼的值超過了階碼所能表示的最小負數，則為下溢，進一步，若此時浮點數為正數，則為正下溢，若浮點數為負數，則為負下溢。正下溢和負下溢都作為0處理。

要注意的是，浮點數的表示範圍和補碼錶示的定點數的表示範圍是有所不同的，定點數的表示範圍是連續的，而浮點數的表示範圍可能是不連續的。

例子

float a=0.3;b=1.6;

$a=(0.3)_{10}=(0011 1110 1001 1001 1001 1001 1001 1010)_{2}, S_{a}=0, E_{a}=011 1110 1, M_{a}=1.001 1001 1001 1001 1001 1010$

$b=(1.6)_{10}=(0011 1111 1100 1100 1100 1100 1100 1101)_{2}, S_{b}=0 , E_{b}=011 1111 1, M_{b}=1.100 1100 1100 1100 1100 1101$

a+b=?

第一步：對階

∵ Ea<Eb Eb-Ea=2

∴ Ma要調整為 0.0 1001 1001 1001 1001 1001 10 10

E=011 1111 1

第二步：尾數運算

    0.01001100110011001100110

+   1.10011001100110011001101

    1.11100110011001100110011

注意，這一步需要讓隱含位參與運算。

第三步：規格化

1.11100110011001100110011已經是個規格化資料了

第四步：舍入處理

由於在對階時，Ma有右移，且第一次最高為1，第二次為0，所以按"0舍1入"，尾數運算結果調整為 1.11100110011001100110100

第五步：溢位判斷

沒有溢位，階碼不調整，所以最後的結果為

a+b=(0 01111111 11100110011001100110100)2=(0011 1111 1111 0011 0011 0011 0011 0100)2=(3FF33334)16

轉為10進位制

a+b=1.90000010

b-a=?

第一步：對階

跟上面加法一樣

第二步：尾數運算

   1.10011001100110011001101           

-  0.01001100110011001100110

   1.01001100110011001100111

這裡要讓隱含位參與運算，按照原碼的減法運算規則進行運算即可

第三步：規格化

1.01001100110011001100111已經是個規格化資料了

第四步：舍入處理

由於在對階時，Ma有右移，且第一次最高為1，第二次為0，所以按"0舍1入"，尾數運算結果調整為 1.01001100110011001100110

第五步：溢位判斷

沒有溢位，階碼不調整，所以最後的結果為

a-b=(0 01111111 01001100110011001100110)2=(0011 1111 1010 0110 0110 0110 0110 0110)2=(3FA66666)16

轉為10進位制

a-b=1.29999995

浮點運算加法器邏輯電路

參考文獻

浮點數的運算步驟

深入理解浮點數的表示
2024-10-18
浮點數的理解
2020-10-23
python中精確的浮點數運算
2019-02-16
Python
浮點數的加減乘除運算細節
2024-08-17
golang 快速入門 [8.3]-深入理解浮點數
2020-03-30
Golang
JavaScript解決浮點數算數運算精度問題
2018-07-03
JavaScript
Python做浮點數(float)運算要小心
2018-12-27
Python
浮點數在計算機底層的表示及運算
2020-07-07
計算機
計組之資料運算：9、浮點數的表示
2020-09-23
圖解計算機中的數值範圍和浮點運算
2021-01-28
圖解計算機
全面總結 JS 中浮點數運算問題
2019-10-19
JS
php 處理浮點數精度運算數字處理等
2021-05-12
PHP
Python浮點數（小數）運算誤差的原因和解決辦法
2019-07-09
Python
JS中如何理解浮點數？
2018-12-26
JS
js中浮點數計算常用方法
2018-11-23
JS
js精確計算浮點數相加
2024-06-14
JS
深入理解 Python 虛擬機器：浮點數（float）的實現原理及原始碼剖析
2023-03-12
Python虛擬機原始碼
深入理解TensorFlow中的tf.metrics運算元
2018-08-24
阿里巴巴為什麼建議使用BigDecimal進行浮點數運算
2023-03-26
阿里Decimal
浮點數
2024-06-07
js處理浮點數計算誤差
2018-12-07
JS
浮點數線上轉hex計算工具
2024-11-09
CSS 深入理解之 float 浮動
2018-05-25
CSS
浮點數之間的比較，基本運算這些究竟是怎麼實現的
2024-08-29
JavaScript浮點數加減乘除精確計算
2018-07-16
JavaScript
計算機組成原理浮點數加減
2020-12-06
計算機
浮點數的比較
2020-09-19
Java浮點數運算實現四捨五入和格式化方法總結
2018-07-05
Java
第一章：位運算-------輸入浮點數，輸出對應二進位制數
2019-03-05
如何避免JS浮點運算的精度問題（例：0.1+0.7=0.7999999999999999）
2024-12-08
JS
Java中浮點數的坑
2021-05-16
Java
理解位運算
2021-09-15
關於JS的浮點數計算精度問題解決方案
2021-09-09
JS
浮點數小知識點
2018-09-22
深入理解new運算子
2020-04-19
高效能運算-openmp程式設計-深入理解(for-collapse)
2024-11-16
程式設計
為什麼計算機對浮點型數字計算存在誤差
2023-04-11
計算機
計算機組成與體系結構-數值表示範圍-浮點數計算
2020-07-08
計算機

深入理解浮點數的運算

浮點數的運算步驟

尾數運算

結果規格化

舍入處理

溢位判斷

例子

浮點運算加法器邏輯電路

參考文獻

相關文章