【轉載】ARM嵌入式系統為什麼要做記憶體對齊

学习,积累,成长發表於2024-06-10

做嵌入式系統軟體開發,經常在程式碼中看到各種各樣的對齊,很多時候我們都是知其然不知其所以然,知道要做好各種對齊,但是不明白為什麼要對齊,不對齊會有哪些後果,這篇文章大概總結了記憶體對齊的理由。

CPU體系結構和MMU的要求

  • 目前有一些RISC指令集的CPU不支援非對齊的記憶體變數訪問操作,比如 MIPS/PowerPC/某些DSP等等,如果發生非對齊的記憶體訪問,會產生unaligned exception 異常。
  • ARM指令集是從ARMv6(ARM11)開始支援非對齊記憶體訪問的,以前老一點的ARM9的CPU也是不支援非對齊訪問的。ARM指令集支援的部分特性迭代如下:
    image.jpg
  • 儘管現代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支援非對齊記憶體訪問,但是考慮到如下圖所示現代SOC晶片裡面多種異構CPU協調工作的情況,主CPU用於跑Linux/Android作業系統的ARM64可以支援非對齊記憶體訪問,但是SOC裡面還有其它不知道體系結構和版本的協CPU(可能是MIPS, ARM7,Cortex-R/M系列, 甚至51微控制器核),這些協CPU都和主ARM64主CPU共享實體記憶體的不同地址段,並且有自己的韌體程式在記憶體上執行,所以在劃分地址空間的時候還是要注意記憶體對齊的問題,尤其是考慮到這些協CPU可能不支援非對齊訪問,同樣在編寫協CPU韌體程式的時候,也要清晰認識到該CPU是否支援非對齊記憶體訪問。

image.png

  • 同樣在ARM的MMU虛擬地址管理中,也有記憶體地址對齊的要求,下圖是ARM的MMU的工作原理和多級頁表(Translation Tables)的索引關係圖

image.jpg
image.jpg

  • ARM體系架構的MMU要求
    • arm 32位體系結構要求L1第一級頁表基地址(The L1 Translation Table Base Addr)對齊到16KB的地址邊界,L2第二級頁表地址(The L2 Translation Table Add)對齊到1KB的地址邊界。
    • ARM 64位體系結構要求虛擬地址的第21-28位VA[28:21]對齊到64 KB granule, 第16到20位VA[20:16]對齊到4 KB granule。
  • ARM 的Memory ordering特性中的不同Memory types對非對齊記憶體訪問的支援的要求是不同的。
    下圖是ARM Memory ordering特性中三種不同的Memory types訪問規則
    image.jpg
    • 只有Normal Memory是支援非對齊記憶體訪問的
    • Strongly-ordered 和 Device Memory不支援非對齊記憶體訪問

對原子操作的影響

儘管現代的ARMv7 ARMv8 指令集的ARM CPU支援非對齊記憶體訪問,但是非對齊記憶體訪問是無法保證操作的原子性。
下圖分別是一個變數在記憶體對齊和非對齊的時候的記憶體佈局:
image.jpg
image.jpg

  • 記憶體對齊的變數訪問,使用單個通用的CPU暫存器暫存,一個記憶體對齊的變數的讀寫操作能保證是單次原子操作.
  • 非對齊的變數的記憶體訪問是非原子操作,他們通常情況下訪問一個非對齊的記憶體中的變數需要2次分別的對記憶體進行訪問,因而不能保證原子性,一旦發生2次分別記憶體訪問,2次分別的訪問中間就有可能被非同步事件打斷,造成變數改變,因而不能保證原子性。

ARM NEON的要求

現代ARM CPU一般都有一個NEON的協處理器,一般用在浮點計算中用來做SIMD並行向量加速計算。下圖是NEON SIMD並行向量計算的基本原理圖:
image.jpg
image.jpg

  • NEON本身是支援非對齊記憶體訪問的
  • 但是NEON訪問非對齊的記憶體一般會有2個指令週期的時間penalty
  • 通常情況下,為了靈活應用NEON的平行計算特性,在做SIMD並行向量加速運算時,我們要根據NEON暫存器的Lane的bits數對齊相應的變數。如果是配置成8-bits的計算,就做8-bits對齊,如果是16-bits計算,就做16-bits對齊,以此類推,NEON的並行向量計算的lane根據spec手冊,有各種靈活配置的方法。

對效能perf的影響

  • 通常而言,儘管現代的ARM CPU已經支援非對齊記憶體的訪問,但是ARM訪問非對齊的記憶體地址還是會造成明顯的效能下降。因為訪問一個非對齊的記憶體,需要增加多次load/store記憶體變數次數,進而增加了程式執行的指令週期
  • 才有perf工具進行效能分析,能看到非對齊記憶體訪問的效能下降,在perf工具中有一個alignment-faults的事件,可以觀察程式訪問非對齊記憶體的事件統計

cache line 對齊

除了通常所講的根據CPU訪問記憶體的地址位數的記憶體對齊之外,在程式最佳化的時候,還要考慮到cache存在的情況,根據cache line的長度來對齊你的訪問變數。

  • cache和cache line的結構原理圖如下(其中圖2從該文章引用自: cenalulu),cache line是cache和記憶體進行資料傳輸的最小單位,一般cache都是以cache line的長度一次讀寫記憶體中的對映地址。
    image.jpg
    image.jpg
  • 在ARM 系列的CPU中,不同型號的ARM CPU的cache line長度是不一樣的,因此同樣是基於ARM平臺的CPU,從A平臺移植最佳化過的程式到B平臺時,一定要注意不同CPU的cache line大小是否一致,是否要重新調整cache line對齊最佳化。下圖是ARMv7幾款公版CPU的cache line的資料手冊,ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基於公版ARM的定製版CPU的cache line大小可能有差異,一定要參考相關TRM手冊進行調整、對齊、最佳化.
    image.jpg
  • 下圖是一個例子關於未做cache line對齊的情況下,進行記憶體讀寫效能抖動的例子,引用自cenalulu.測試程式碼如下
    程式的大意,對不同大小的陣列進行1億次讀寫操作,統計不同陣列size時的讀寫時間。從測試的結果可以看出,當陣列大小小於cache line size時,讀寫時間基本變化不大,當陣列大小剛剛超過cache line size的時候,讀寫時間發生了劇烈的抖動。
    這是因為超過cache line 大小的陣列元素可能沒有提前預讀到cache line中,在訪問完cache line中的陣列元素之後,要重新從記憶體讀取資料,重新整理cache line,因而產生了效能抖動。
    透過這個例子告訴我們,充分利用系統cache特性,根據cache line對齊你的資料,保證程式訪問的區域性資料都在一個cache line中可以提升系統效能。
#include "stdio.h"
#include <stdlib.h>
#include <sys/time.h>

long timediff(clock_t t1, clock_t t2) {
    long elapsed;
    elapsed = ((double)t2 - t1) / CLOCKS_PER_SEC * 1000;
    return elapsed;
}

int main(int argc, char *argv[])
#*******
{

    int array_size=atoi(argv[1]);
    int repeat_times = 1000000000;
    long array[array_size];
    for(int i=0; i<array_size; i++){
        array[i] = 0;
    }
    int j=0;
    int k=0;
    int c=0;
    clock_t start=clock();
    while(j++<repeat_times){
        if(k==array_size){
            k=0;
        }
        c = array[k++];
    }
    clock_t end =clock();
    printf("%lu\n", timediff(start,end));
    return 0;
}
1234567891011121314151617181920212223242526272829303132333435

image.jpg

  • 沒有對齊到同一個cache line中的變數,在多核SMP系統中,cross cache line操作是非原子操作,存在篡改的風險。該例子引用自
    kongfy)
    測試程式碼如下,
    程式大意是,系統cpu的cache line是64位元組,一個68位元組的結構體struct data, 其中前面填充60位元組的pad[15]陣列,最後一個8位元組的變數v, 這樣結構體大小超過了64位元組,最後一個變數v的前後部分可定不在同一個cache line中,整個結構體沒法根據cache line對齊。
    全域性變數value.v初始值是0, 程式開多執行緒,對全域性變數value.v進行多次~位取反操作,直覺上最後結果value.v的位結果不是全0就是全1,但是最後value.v的位結果居然是一半1一半0, 這就是由於cross cache line 操作是非原子性的,導致一個執行緒對value.v前半部分取反的時候,另外的執行緒對後半部分在另一個cache line同時取反,然後前一個執行緒再對另一個cache line的value.v後半部分取反,導致和直覺不一致。
#include <pthread.h>
#include <stdlib.h>
#include <stdio.h>
#include <algorithm>
 
using namespace std;
 
static const int64_t MAX_THREAD_NUM = 128;
 
static int64_t n          = 0;
static int64_t loop_count = 0;
 
#pragma pack (1)
struct data
{
  int32_t pad[15];
  int64_t v;
};
#pragma pack ()
 
static data value __attribute__((aligned(64)));
static int64_t counter[MAX_THREAD_NUM];
 
void worker(int *cnt)
{
  for (int64_t i = 0; i < loop_count; ++i) {
    const int64_t t = value.v;
 
    if (t != 0L && t != ~0L) {
      *cnt += 1;
    }
 
    value.v = ~t;
    asm volatile("" ::: "memory");
  }
}
 
int main(int argc, char *argv[])
{
  pthread_t threads[MAX_THREAD_NUM];
 
  /* Check arguments to program*/
  if(argc != 3) {
      fprintf(stderr, "USAGE: %s <threads> <loopcount>\n", argv[0]);
      exit(1);
  }
 
  /* Parse argument */
  n          = min(atol(argv[1]), MAX_THREAD_NUM);
  loop_count = atol(argv[2]); /* Don't bother with format checking */
 
  /* Start the threads */
  for (int64_t i = 0L; i < n; ++i) {
    pthread_create(&threads[i], NULL, (void* (*)(void*))worker, &counter[i]);
  }
 
  int64_t count = 0L;
  for (int64_t i = 0L; i < n; ++i) {
    pthread_join(threads[i], NULL);
    count += counter[i];
  }
 
  printf("data size: %lu\n", sizeof(value));
  printf("data addr: %lX\n", (unsigned long)&value.v);
  printf("final: %016lX\n", value.v);
 
  return 0;
}

原文連結:https://blog.csdn.net/zhou_chenz/article/details/102610992

相關文章