如何在程式碼層面提供CPU分支預測效率

張雅宸發表於2022-04-21

原文網址 : https://www.cnblogs.com/zhangyachen/p/16173925.html

關於分支預測的基本概念和詳細演算法可以參考我之前寫的知乎回答，基本概念不再闡述了~~

https://www.zhihu.com/question/486239354/answer/2410692045

說幾個常見的能夠提升CPU分支預測效率的方法。

將最常見的條件比較單獨從switch中移出

分支預測除了需要預測方向，還需要預測分支的目標地址。目標地址BTA(Branch Target Address)分為兩種：

直接跳轉(PC-relative, direct) ： offset以立即數形式固定在指令中，所以目標地址也是固定的。
間接跳轉(absolute, indirect)：目標地址來自通用暫存器，而暫存器的值不固定。

對於直接跳轉，使用BTB可以很好的進行預測。但是對於間接跳轉，目標地址不固定，更難預測。switch-case的指令實現(類似jmpq *$rax，$rax是case對應label地址)、C++虛擬函式呼叫就屬於間接跳轉。間接跳轉如果還用直接跳轉的BTB預測，準確率只有50%左右。

很多CPU針對間接跳轉都有單獨的預測器，比如的Intel的論文The Intel Pentium M Processor: Microarchitecture and Performance中介紹額Indirect Branch Predictor：通過額外引入context-information——Global Branch History來提高間接跳轉的目標地址預測準確率。

switch-case的優點是將諸多if/else(conditional branch)轉換為統一的unconditioal branch，但缺點就是目標地址難以預測。如果某個case的命中率特別高，就可以將其從switch中單獨提出來，這樣該分支的預測方向 && 目標地址都很好預測。

比如java dubbo程式碼裡的一個例子：：

超過99.9%情況state取值都是ChannelState.RECEIVED ，將其單獨提出來。官網部落格有一個benchmark，效能有很大的改觀。

將使用【控制】的條件轉移轉換為使用【資料】的條件轉移

CMOV指令就是典型的例子。CPU無需進行分支預測，但是會計算一個條件的兩種結果，然後通過檢查條件碼，要麼更新目的暫存器，要麼保持不變。

比如

v = test-expr ? then-expr : else-expr

會轉換為下列虛擬碼：

v = then-expr;
ve = else-expr;
t = test-expr;
if(!t) v=ve;

編譯器會傾向於將使用三元運算子且兩種結果的計算量不大的表示式轉換為CMOV條件資料轉移。例如facebook folly中的例子，注意看註釋：

當分支的結果完全由外部輸入決定，local branch history和global branch history都毫無規律時，效果會更好。下面這個是《Computer Systems A Programmer's Perspective 》5.11.2小節的例子，第二個版本效能是第一個三倍：

/* Rearrange two vectors so that for each i, b[i] >= a[i] */
void minmax1(long a[], long b[], long n) {
  long i;
  for (i = 0; i < n; i++) {
    if (a[i] > b[i]) {
      long t = a[i];
      a[i] = b[i];
      b[i] = t;
    }
  }
}

/* Rearrange two vectors so that for each i, b[i] >= a[i] */
void minmax2(long a[], long b[], long n) {
  long i;
  for (i = 0; i < n; i++) {
    long min = a[i] < b[i] ? a[i] : b[i];
    long max = a[i] < b[i] ? b[i] : a[i];
    a[i] = min;
    b[i] = max;
  }
}

使用算數邏輯代替分支

比如ARM優化手冊裡提到，可以將範圍比較轉換為無條件計算，編譯器有時候也會自動做這個轉換：

// origin version
int insideRange1(int v, int min, int max) {
  return v >= min && v < max;
}

// optimized version
int insideRange2(int v, int min, int max) {
  return (unsigned) (v - min) < (max - min);
}

韋易笑大佬針對這個做過更詳細的優化和測試，反正我是看暈了：

https://zhuanlan.zhihu.com/p/144963553

https://zhuanlan.zhihu.com/p/147039093

引用文章內的測試資料：

Avoiding Branches裡有更多的例子，不過用之前還是做測試更靠譜。

使用template移除分支

2018年Stephen Yang的博士論文NanoLog: A Nanosecond Scale Logging System介紹了一款C++日誌庫Nanolog，將日誌呼叫開銷的中位數降為了個位數納秒級別。作者在文章NANOLOG: A NANOSECOND SCALE LOGGING SYSTEM中提到了Nanolog的關鍵技術和優化，第三條就是將printf在執行時的大量分支邏輯利用C++ template優化成編譯期的運算。

likely/unlikely

這個很多人已經介紹過了，C++20已經將其標準化，支援將更可能執行的程式碼放在hot path上，對icache更友好。例如facebook folly中的例子：

FOLLY_LIKELY是一個包裝：

更進一步，有些ISA的分支指令有一個bit，支援programmer去指定分支是否taken。現代CPU使用的TAGE分支預測器，部分實現會使用該bit去初始化predictor(是初始化，不是一直使用programmer指定的跳轉結果)。TAGE預測器可以參考下我開頭放的回答：https://www.zhihu.com/question/486239354/answer/2410692045

(完)

朋友們可以關注下我的公眾號，獲得最及時的更新：

CPU的流水線，分支預測與亂序執行
2020-11-18
從一段 Dubbo 原始碼到 CPU 分支預測的一次探險之旅
2020-10-16
原始碼
現代中央處理器（CPU）是怎樣進行分支預測的？
2022-03-30
如何在matlab程式碼中加一層分隔？
2020-11-21
Matlab
程式碼如人
2019-05-11
經典問題之「分支預測」
2019-03-22
程式碼分支規範
2020-04-01
拉取指定分支程式碼
2024-09-02
測試多分支開發對合並程式碼的影響
2019-02-10
有效提升Python程式碼效能的三個層面
2022-03-12
Python
面試官：如何寫出讓 CPU 跑得更快的程式碼？
2020-10-18
面試
Git 如何同步上游分支程式碼?
2020-08-15
Git
如何在瀏覽器中測試JavaScript程式碼？
2023-04-12
瀏覽器JavaScript
前端頁面測試如何定位漏測程式碼
2024-09-12
前端
重構程式碼（應如寫詩）
2019-04-05
【Git】程式碼許可權&分支管理
2023-03-06
Git
SVN使用教程：將online分支的程式碼合併到sprint分支
2020-09-23
git本地分支對映遠端分支並推送相應程式碼
2024-08-05
Git
老實說，分支預測，是高手過招的殺手鐧，但是對寫業務程式碼沒啥幫助。
2024-03-11
iOS一行程式碼監測FPS/記憶體/CPU
2018-07-20
iOS行程記憶體
使用springboot對各層的程式碼進行測試！
2018-06-14
Spring Boot
git 強制拉取master分支程式碼
2024-10-02
GitAST
鄭建勳：Go程式效能分層優化 | CPU篇
2022-06-28
Go優化
android HAL層程式碼
2019-07-19
Android
[譯] 層次時間序列預測法
2021-11-01
使用 JGit 來實現 master 分支和 feature 分支之間的程式碼比對並獲取增量程式碼
2024-05-23
GitAST
Mxnet速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測
2022-04-02
GPU模型
Keras速查_CPU和GPU的mnist預測訓練_模型匯出_模型匯入再預測_匯出onnx並預測
2022-03-20
KerasGPU模型
執行緒剖析-助力定位程式碼層面高耗時問題
2023-11-21
執行緒
程式碼分層設計
2019-03-09
程式池、執行緒池效率測試
2018-03-13
執行緒
分支預測：為什麼有序陣列比無序陣列快?
2018-07-10
陣列
git哪個操作會產生commit和將A分支的程式碼剪下到B分支
2024-12-06
GitMIT
java併發系列——底層CPU
2022-01-04
Java
Python 工匠：編寫條件分支程式碼的技巧
2018-10-24
Python
分支對程式碼效能的影響和優化
2022-03-26
優化
人工智慧為蛋白質摺疊預測提供動力
2021-11-29
人工智慧
開發者故事｜程式碼虐我千萬遍，我待程式碼如“初戀”
2022-03-07