【轉載】ARM嵌入式系統為什麼要做記憶體對齊

学习，积累，成长發表於2024-06-10

原文網址 : https://www.cnblogs.com/dongxb/p/18240594

記憶體

做嵌入式系統軟體開發，經常在程式碼中看到各種各樣的對齊，很多時候我們都是知其然不知其所以然，知道要做好各種對齊，但是不明白為什麼要對齊，不對齊會有哪些後果，這篇文章大概總結了記憶體對齊的理由。

CPU體系結構和MMU的要求

目前有一些RISC指令集的CPU不支援非對齊的記憶體變數訪問操作，比如 MIPS/PowerPC/某些DSP等等，如果發生非對齊的記憶體訪問，會產生unaligned exception 異常。
ARM指令集是從ARMv6(ARM11)開始支援非對齊記憶體訪問的，以前老一點的ARM9的CPU也是不支援非對齊訪問的。ARM指令集支援的部分特性迭代如下:
儘管現代的ARMv7 ARMv8 指令集的Cortex-AXX系列CPU都支援非對齊記憶體訪問，但是考慮到如下圖所示現代SOC晶片裡面多種異構CPU協調工作的情況，主CPU用於跑Linux/Android作業系統的ARM64可以支援非對齊記憶體訪問，但是SOC裡面還有其它不知道體系結構和版本的協CPU(可能是MIPS, ARM7，Cortex-R/M系列，甚至51微控制器核)，這些協CPU都和主ARM64主CPU共享實體記憶體的不同地址段，並且有自己的韌體程式在記憶體上執行，所以在劃分地址空間的時候還是要注意記憶體對齊的問題，尤其是考慮到這些協CPU可能不支援非對齊訪問，同樣在編寫協CPU韌體程式的時候，也要清晰認識到該CPU是否支援非對齊記憶體訪問。

同樣在ARM的MMU虛擬地址管理中，也有記憶體地址對齊的要求，下圖是ARM的MMU的工作原理和多級頁表(Translation Tables)的索引關係圖

ARM體系架構的MMU要求
- arm 32位體系結構要求L1第一級頁表基地址（The L1 Translation Table Base Addr）對齊到16KB的地址邊界，L2第二級頁表地址（The L2 Translation Table Add）對齊到1KB的地址邊界。
- ARM 64位體系結構要求虛擬地址的第21-28位VA[28:21]對齊到64 KB granule，第16到20位VA[20:16]對齊到4 KB granule。
ARM 的Memory ordering特性中的不同Memory types對非對齊記憶體訪問的支援的要求是不同的。
下圖是ARM Memory ordering特性中三種不同的Memory types訪問規則
- 只有Normal Memory是支援非對齊記憶體訪問的
- Strongly-ordered 和 Device Memory不支援非對齊記憶體訪問

對原子操作的影響

儘管現代的ARMv7 ARMv8 指令集的ARM CPU支援非對齊記憶體訪問，但是非對齊記憶體訪問是無法保證操作的原子性。
下圖分別是一個變數在記憶體對齊和非對齊的時候的記憶體佈局:

記憶體對齊的變數訪問，使用單個通用的CPU暫存器暫存，一個記憶體對齊的變數的讀寫操作能保證是單次原子操作.
非對齊的變數的記憶體訪問是非原子操作，他們通常情況下訪問一個非對齊的記憶體中的變數需要2次分別的對記憶體進行訪問，因而不能保證原子性，一旦發生2次分別記憶體訪問，2次分別的訪問中間就有可能被非同步事件打斷，造成變數改變，因而不能保證原子性。

ARM NEON的要求

現代ARM CPU一般都有一個NEON的協處理器，一般用在浮點計算中用來做SIMD並行向量加速計算。下圖是NEON SIMD並行向量計算的基本原理圖:

NEON本身是支援非對齊記憶體訪問的
但是NEON訪問非對齊的記憶體一般會有2個指令週期的時間penalty
通常情況下，為了靈活應用NEON的平行計算特性，在做SIMD並行向量加速運算時，我們要根據NEON暫存器的Lane的bits數對齊相應的變數。如果是配置成8-bits的計算，就做8-bits對齊，如果是16-bits計算，就做16-bits對齊，以此類推，NEON的並行向量計算的lane根據spec手冊，有各種靈活配置的方法。

對效能perf的影響

通常而言，儘管現代的ARM CPU已經支援非對齊記憶體的訪問，但是ARM訪問非對齊的記憶體地址還是會造成明顯的效能下降。因為訪問一個非對齊的記憶體，需要增加多次load/store記憶體變數次數，進而增加了程式執行的指令週期
才有perf工具進行效能分析，能看到非對齊記憶體訪問的效能下降，在perf工具中有一個alignment-faults的事件，可以觀察程式訪問非對齊記憶體的事件統計

cache line 對齊

除了通常所講的根據CPU訪問記憶體的地址位數的記憶體對齊之外，在程式最佳化的時候，還要考慮到cache存在的情況，根據cache line的長度來對齊你的訪問變數。

cache和cache line的結構原理圖如下(其中圖2從該文章引用自: cenalulu)，cache line是cache和記憶體進行資料傳輸的最小單位，一般cache都是以cache line的長度一次讀寫記憶體中的對映地址。
在ARM 系列的CPU中，不同型號的ARM CPU的cache line長度是不一樣的，因此同樣是基於ARM平臺的CPU，從A平臺移植最佳化過的程式到B平臺時，一定要注意不同CPU的cache line大小是否一致，是否要重新調整cache line對齊最佳化。下圖是ARMv7幾款公版CPU的cache line的資料手冊，ARMv8 64位的公版CPU(A53, A57, A72, A73)目前的cache line大小都是64 bytes, 但是各家公司基於公版ARM的定製版CPU的cache line大小可能有差異，一定要參考相關TRM手冊進行調整、對齊、最佳化.
下圖是一個例子關於未做cache line對齊的情況下，進行記憶體讀寫效能抖動的例子，引用自cenalulu.測試程式碼如下
程式的大意，對不同大小的陣列進行1億次讀寫操作，統計不同陣列size時的讀寫時間。從測試的結果可以看出，當陣列大小小於cache line size時，讀寫時間基本變化不大，當陣列大小剛剛超過cache line size的時候，讀寫時間發生了劇烈的抖動。
這是因為超過cache line 大小的陣列元素可能沒有提前預讀到cache line中，在訪問完cache line中的陣列元素之後，要重新從記憶體讀取資料，重新整理cache line，因而產生了效能抖動。
透過這個例子告訴我們，充分利用系統cache特性，根據cache line對齊你的資料，保證程式訪問的區域性資料都在一個cache line中可以提升系統效能。

#include "stdio.h"
#include <stdlib.h>
#include <sys/time.h>

long timediff(clock_t t1, clock_t t2) {
    long elapsed;
    elapsed = ((double)t2 - t1) / CLOCKS_PER_SEC * 1000;
    return elapsed;
}

int main(int argc, char *argv[])
#*******
{

    int array_size=atoi(argv[1]);
    int repeat_times = 1000000000;
    long array[array_size];
    for(int i=0; i<array_size; i++){
        array[i] = 0;
    }
    int j=0;
    int k=0;
    int c=0;
    clock_t start=clock();
    while(j++<repeat_times){
        if(k==array_size){
            k=0;
        }
        c = array[k++];
    }
    clock_t end =clock();
    printf("%lu\n", timediff(start,end));
    return 0;
}
1234567891011121314151617181920212223242526272829303132333435

沒有對齊到同一個cache line中的變數，在多核SMP系統中，cross cache line操作是非原子操作，存在篡改的風險。該例子引用自
kongfy)
測試程式碼如下，
程式大意是，系統cpu的cache line是64位元組，一個68位元組的結構體struct data，其中前面填充60位元組的pad[15]陣列，最後一個8位元組的變數v, 這樣結構體大小超過了64位元組，最後一個變數v的前後部分可定不在同一個cache line中，整個結構體沒法根據cache line對齊。
全域性變數value.v初始值是0，程式開多執行緒，對全域性變數value.v進行多次~位取反操作，直覺上最後結果value.v的位結果不是全0就是全1，但是最後value.v的位結果居然是一半1一半0，這就是由於cross cache line 操作是非原子性的，導致一個執行緒對value.v前半部分取反的時候，另外的執行緒對後半部分在另一個cache line同時取反，然後前一個執行緒再對另一個cache line的value.v後半部分取反，導致和直覺不一致。

#include <pthread.h>
#include <stdlib.h>
#include <stdio.h>
#include <algorithm>
 
using namespace std;
 
static const int64_t MAX_THREAD_NUM = 128;
 
static int64_t n          = 0;
static int64_t loop_count = 0;
 
#pragma pack (1)
struct data
{
  int32_t pad[15];
  int64_t v;
};
#pragma pack ()
 
static data value __attribute__((aligned(64)));
static int64_t counter[MAX_THREAD_NUM];
 
void worker(int *cnt)
{
  for (int64_t i = 0; i < loop_count; ++i) {
    const int64_t t = value.v;
 
    if (t != 0L && t != ~0L) {
      *cnt += 1;
    }
 
    value.v = ~t;
    asm volatile("" ::: "memory");
  }
}
 
int main(int argc, char *argv[])
{
  pthread_t threads[MAX_THREAD_NUM];
 
  /* Check arguments to program*/
  if(argc != 3) {
      fprintf(stderr, "USAGE: %s <threads> <loopcount>\n", argv[0]);
      exit(1);
  }
 
  /* Parse argument */
  n          = min(atol(argv[1]), MAX_THREAD_NUM);
  loop_count = atol(argv[2]); /* Don't bother with format checking */
 
  /* Start the threads */
  for (int64_t i = 0L; i < n; ++i) {
    pthread_create(&threads[i], NULL, (void* (*)(void*))worker, &counter[i]);
  }
 
  int64_t count = 0L;
  for (int64_t i = 0L; i < n; ++i) {
    pthread_join(threads[i], NULL);
    count += counter[i];
  }
 
  printf("data size: %lu\n", sizeof(value));
  printf("data addr: %lX\n", (unsigned long)&value.v);
  printf("final: %016lX\n", value.v);
 
  return 0;
}

原文連結：https://blog.csdn.net/zhou_chenz/article/details/102610992

記憶體對齊
2024-03-18
記憶體
GO 記憶體對齊
2020-11-21
Go記憶體
理解記憶體對齊
2020-11-06
記憶體
結構體記憶體對齊
2020-11-21
結構體記憶體
C# 記憶體對齊
2024-10-06
C#記憶體
探索 Go 語言中的記憶體對齊：為什麼結構體大小會有所不同？
2024-11-22
Go記憶體結構體
iOS 記憶體位元組對齊
2019-05-12
iOS記憶體
C語言記憶體對齊
2024-10-02
C語言記憶體
到底cms企業建站系統是什麼?為什麼要做cms系統?
2019-08-14
C++ struct結構體記憶體對齊
2022-03-22
C++Struct結構體記憶體
c 結構體記憶體對齊詳解
2021-04-13
結構體記憶體
MongoDB 如何使用記憶體？為什麼記憶體滿了？
2019-01-10
MongoDB記憶體
MongoDB如何使用記憶體？為什麼記憶體滿了？
2019-01-08
MongoDB記憶體
iOS探索記憶體對齊&malloc原始碼
2020-01-02
iOS記憶體原始碼
C/C++記憶體對齊原則
2023-02-05
C++記憶體
C/C++記憶體對齊詳解
2021-01-19
C++記憶體
Java記憶體模型是什麼，為什麼要有Java記憶體模型，Java記憶體模型解決了什麼問題？
2018-07-26
Java記憶體模型
[轉載] Java直接記憶體與堆記憶體
2018-05-11
Java記憶體
Netty原始碼解析 -- 記憶體對齊類SizeClasses
2020-11-22
Netty原始碼記憶體
SQL Server為什麼這麼耗記憶體
2021-09-09
SQLServer記憶體
struct結構體大小的計算(記憶體對齊)
2021-10-09
Struct結構體記憶體
為什麼 Linux 需要虛擬記憶體
2020-06-09
Linux記憶體
為什麼win10系統microsoft modules installer worker佔用記憶體較高
2020-04-14
Win10ROS記憶體
win10系統4g記憶體為什麼只顯示3g_win10系統4g記憶體卻只顯示3g是什麼原因
2020-02-14
Win10記憶體
我為什麼要做IT
2019-08-23
《轉載》OA辦公系統對中小企業起到什麼作用？
2019-09-16
企業為什麼要做CRM客戶管理系統?CRM系統能為企業帶來什麼好處?
2022-07-12
Dig101:Go 之聊聊 struct 的記憶體對齊
2020-02-14
GoStruct記憶體
記憶體對齊巨集定義的簡明解釋
2022-01-28
記憶體
我們為什麼要做一名系統管理員？
2023-09-23
C結構體中資料的記憶體對齊問題
2018-08-20
結構體記憶體
從 CPU 角度理解 Go 中的結構體記憶體對齊
2022-01-20
Go結構體記憶體
ARM嵌入式系統該如何學習
2021-04-17
Arm64記憶體模型、記憶體型別、效能與DMA
2024-10-25
記憶體模型型別
段頁式記憶體管理（轉載）
2024-03-29
記憶體
Innodb記憶體管理解析[轉載]
2021-04-16
記憶體
面試官：為什麼需要Java記憶體模型？
2021-10-14
面試Java記憶體模型
netcore高階知識點，記憶體對齊，原理與示例
2024-09-02
NetCore記憶體