痞子衡嵌入式:利用i.MXRT1xxx系列內部DCP引擎計算Hash值時需特別處理L1 D-Cache

痞子衡發表於2021-04-27

  大家好,我是痞子衡,是正經搞技術的痞子。今天痞子衡給大家介紹的是利用i.MXRT1xxx系列內部DCP引擎計算Hash值時需特別處理L1 D-Cache

  關於i.MXRT1xxx系列內部通用資料協處理器DCP模組,痞子衡之前寫過一篇文章 《SNVS Master Key僅在i.MXRT10xx Hab關閉時才能用於DCP加解密》 介紹了DCP基本功能和AES加解密使用注意事項,實際上DCP模組除了對AES加解密演算法支援外,還支援經典的Hash演算法(SHA-1/SHA-256/CRC32)。

  痞子衡最近支援一個i.MXRT大客戶,他們專案裡使用了DCP做Hash運算,但會出現概率性Hash校驗失敗的情況(差不多執行50次,會失敗1次),這是什麼情況?

一、客戶專案基本情況

  先介紹下客戶基本情況,他們專案使用的主晶片是i.MXRT1062,並且配置了外部序列Flash儲存程式程式碼(XiP),以及外部SDRAM放置程式資料區(其實主要是做frameBuffer的,但也同時放置了.data段和STACK),專案基於的SDK版本是v2.6.2。

  專案中主要呼叫了 \SDK_2.6.2_EVK-MIMXRT1060\middleware\mbedtls\library\sha256.c 中的 mbedtls_sha256() 函式,這個函式其實是通過呼叫 \SDK_2.6.2_EVK-MIMXRT1060\middleware\mbedtls\port\ksdk\ksdk_mbedtls.c 裡的一系列底層函式mbedtls_sha256_xx() 來進一步實現的。

  ksdk_mbedtls.c 檔案是同時適用Kinetis/LPC/i.MXRT等系列MCU的,不同MCU上硬體引擎不同(比如有LTC/CAAM/CAU3/DCP/HashCrypt)。對於i.MXRT1xxx,硬體引擎就是DCP,這些 mbedtls_sha256_xx() 函式主要呼叫了 SDK 標準驅動 fsl_dcp.c 裡的如下函式:

status_t DCP_HASH_Init(DCP_Type *base, dcp_handle_t *handle, dcp_hash_ctx_t *ctx, dcp_hash_algo_t algo);
status_t DCP_HASH_Update(DCP_Type *base, dcp_hash_ctx_t *ctx, const uint8_t *input, size_t inputSize);
status_t DCP_HASH_Finish(DCP_Type *base, dcp_hash_ctx_t *ctx, uint8_t *output, size_t *outputSize);

二、概率性失敗情況分析

  既然是概率性失敗的問題,那大概率和Cache處理有關了,我們需要檢查下 fsl_dcp.c 驅動是否很好地處理了Cache。讓我們開啟 \SDK_2.6.2_EVK-MIMXRT1060\boards\evkmimxrt1060\driver_examples\dcp 例程先看一下,在 dcp.c 檔案的 main() 函式裡可以看到明顯的提醒。如果專案裡用到了SDRAM,必須將DCache關掉,說明 dcp 驅動並不支援在DCache使能下執行。但顯然這個客戶專案用到了SDRAM,後來跟客戶確認,他們DCache一直是使能的,這顯然是有問題的。

int main(void)
{
    dcp_config_t dcpConfig;

    /* Init hardware*/
    BOARD_ConfigMPU();
    BOARD_InitPins();
    BOARD_BootClockRUN();
    BOARD_InitDebugConsole();

    /* Data cache must be temporarily disabled to be able to use sdram */
    SCB_DisableDCache();

    ...

  讓我們再次回到SDK版本,在 恩智浦SDK下載主頁 可以看到所有i.MXRT1060 SDK歷史版本,v2.6.2是2019年7月釋出的(這個版本里的dcp驅動版本是v2.1.1),是的,這個客戶算是i.MXRT早期客戶了。而現在最新的SDK版本已經是v2.9.3(dcp驅動已經升級到v2.1.6),時間快過去兩年了,客戶並沒有實時更新SDK版本。

  早期的 dcp 驅動沒有處理DCache,所以其必須在 DCache 關掉的情況下才能正常工作。從v2.1.5開始增加了對 DCache 的處理,這樣 dcp 驅動就可以在 DCache 使能的情況下正常工作了。

三、DCP驅動裡是如何處理DCache的?

  現在讓我們在SDK標準驅動 fsl_dcp.c 中看一下它到底是怎麼增加對DCache處理的。

3.1 DCP上下文buffer設定

  使用 dcp 驅動的第一步是DCP模組初始化,即DCP_Init()函式,這個函式會在DCP->CTRL暫存器裡將模組全部的四通道都使能以及將上下文(Context)的快取和通道自切換功能也都開啟,其中關於上下文切換有一個重要的私有全域性變數 s_dcpContextSwitchingBuffer,這個變數被放置到了NON-CACHE區域(驅動改進處一)。下述DCP->CONTEXT暫存器就是用來儲存 s_dcpContextSwitchingBuffer 地址的。

AT_NONCACHEABLE_SECTION_INIT(static dcp_context_t s_dcpContextSwitchingBuffer);

void DCP_Init(DCP_Type *base, const dcp_config_t *config)
{
    // 程式碼省略...

    /* use context switching buffer */
    base->CONTEXT = (uint32_t)&s_dcpContextSwitchingBuffer;
}

3.2 DCP使用者資料in/out buffer設定

  DCP 模組初始化完成後,就是呼叫 dcp 驅動裡的DCP_HASH()函式進行Hash運算,這個函式引數裡有兩個使用者Buffer,一個Input Buffer存放待計算的訊息資料,另一個Output Buffer存放計算好的Hash值(SHA256是32bytes),這兩個Buffer最好由使用者處理放置在NON-CACHE區。

/* Input data for DCP like input and output should be handled properly
 * when DCACHE is used (e.g. Clean&Invalidate, use non-cached memory)
 */
AT_NONCACHEABLE_SECTION(static uint8_t s_outputSha256[32]);

status_t calc_sha256(const uint8_t *messageBuf, uint32_t messageLen)
{
    size_t outLength = sizeof(s_outputSha256);
    dcp_handle_t m_handle;
    m_handle.channel    = kDCP_Channel0;
    m_handle.keySlot    = kDCP_KeySlot0;
    m_handle.swapConfig = kDCP_NoSwap;

    memset(&s_outputSha256, 0, outLength);

    return DCP_HASH(DCP, &m_handle, kDCP_Sha256, messageBuf, messageLen, s_outputSha256, &outLength);
}

3.3 DCP_HASH()相關程式碼中DCache處理

  DCP_HASH()函式執行過程中會一直用到一個非常關鍵的內部結構體 dcp_hash_ctx_internal_t,這個結構體大小為47 Words(包含128byte的待計算訊息資料塊blk、32bytes實時計算結果runningHash、及其他輔助變數成員)。

/*! internal dcp_hash context structure */
typedef struct _dcp_hash_ctx_internal
{
    dcp_hash_block_t blk;        /*!< memory buffer. only full blocks are written to DCP during hash updates */
    size_t blksz;                /*!< number of valid bytes in memory buffer */
    dcp_hash_algo_t algo;        /*!< selected algorithm from the set of supported algorithms */
    dcp_hash_algo_state_t state; /*!< finite machine state of the hash software process */
    uint32_t fullMessageSize;    /*!< track message size */
    uint32_t ctrl0;              /*!< HASH_INIT and HASH_TERM flags */
    uint32_t runningHash[9];     /*!< running hash. up to SHA-256 plus size, that is 36 bytes. */
    dcp_handle_t *handle;
} dcp_hash_ctx_internal_t;

  dcp 驅動直接定義了 dcp_hash_ctx_t 型區域性變數hashCtx,hashCtx空間後續會被用作dcp_hash_ctx_internal_t。舊版本里DCP_HASH_CTX_SIZE值為58,新版本增加到64,這是為了後續L1DCACHE的LINE對齊(驅動改進處二)。

/*! @brief DCP HASH Context size. */
#define DCP_HASH_CTX_SIZE 64

/*! @brief Storage type used to save hash context. */
typedef struct _dcp_hash_ctx_t
{
    uint32_t x[DCP_HASH_CTX_SIZE];
} dcp_hash_ctx_t;

status_t DCP_HASH(DCP_Type *base, dcp_handle_t *handle, dcp_hash_algo_t algo, const uint8_t *input, size_t inputSize, uint8_t *output, size_t *outputSize)
{
    dcp_hash_ctx_t hashCtx = {0};
    status_t status;

    status = DCP_HASH_Init(base, handle, &hashCtx, algo);
    status = DCP_HASH_Update(base, &hashCtx, input, inputSize);
    status = DCP_HASH_Finish(base, &hashCtx, output, outputSize);
    // ...
}

status_t DCP_HASH_Init/Update/Finish(...,dcp_hash_ctx_t *ctx,...)
{
    dcp_hash_ctx_internal_t *ctxInternal;
    /* Align structure on DCACHE line*/
#if defined(__DCACHE_PRESENT) && (__DCACHE_PRESENT == 1U) && defined(DCP_USE_DCACHE) && (DCP_USE_DCACHE == 1U)
    ctxInternal = (dcp_hash_ctx_internal_t *)(uint32_t)((uint8_t *)ctx + FSL_FEATURE_L1DCACHE_LINESIZE_BYTE);
#else
    ctxInternal = (dcp_hash_ctx_internal_t *)(uint32_t)ctx;
#endif

    // 程式碼省略...
}

  DCP_HASH()函式中啟動DCP引擎去計算訊息塊資料前,都會呼叫 DCACHE_InvalidateByRange() 函式對 ctxInternal 所佔空間做清理(驅動改進處三)。啟動DCP引擎工作一次的函式是dcp_hash_update(),這個函式會利用 dcp_work_packet_t 型結構體變數,對於這個結構,程式碼中也同樣做了L1DCACHE對齊處理(驅動改進處四):

/*! @brief DCP's work packet. */
typedef struct _dcp_work_packet
{
    uint32_t nextCmdAddress;
    uint32_t control0;
    uint32_t control1;
    uint32_t sourceBufferAddress;
    uint32_t destinationBufferAddress;
    uint32_t bufferSize;
    uint32_t payloadPointer;
    uint32_t status;
} dcp_work_packet_t;

#if defined(__DCACHE_PRESENT) && (__DCACHE_PRESENT == 1U) && defined(DCP_USE_DCACHE) && (DCP_USE_DCACHE == 1U)
static inline uint32_t *DCP_FindCacheLine(uint8_t *dcpWorkExt)
{
    while (0U != ((uint32_t)dcpWorkExt & ((uint32_t)FSL_FEATURE_L1DCACHE_LINESIZE_BYTE - 1U)))
    {
        dcpWorkExt++;
    }
    return (uint32_t *)(uint32_t)dcpWorkExt;
}
#endif

static status_t dcp_hash_update(DCP_Type *base, dcp_hash_ctx_internal_t *ctxInternal, const uint8_t *msg, size_t size)
{
    status_t completionStatus = kStatus_Fail;

    /* Use extended  DCACHE line size aligned structure */
#if defined(__DCACHE_PRESENT) && (__DCACHE_PRESENT == 1U) && defined(DCP_USE_DCACHE) && (DCP_USE_DCACHE == 1U)
    dcp_work_packet_t *dcpWork;
    uint8_t dcpWorkExt[sizeof(dcp_work_packet_t) + FSL_FEATURE_L1DCACHE_LINESIZE_BYTE] = {0U};
    dcpWork = (dcp_work_packet_t *)(uint32_t)DCP_FindCacheLine(dcpWorkExt);
#else
    dcp_work_packet_t dcpWorkPacket = {0};
    dcp_work_packet_t *dcpWork      = &dcpWorkPacket;
#endif

    do
    {
        completionStatus = dcp_hash_update_non_blocking(base, ctxInternal, dcpWork, msg, size);
    } while (completionStatus == (int32_t)kStatus_DCP_Again);

    completionStatus = DCP_WaitForChannelComplete(base, ctxInternal->handle);

    ctxInternal->ctrl0 = 0;
    return (completionStatus);
}

  至此,利用i.MXRT1xxx系列內部DCP引擎計算Hash值時需特別處理L1 D-Cache痞子衡便介紹完畢了,掌聲在哪裡~~~

歡迎訂閱

文章會同時釋出到我的 部落格園主頁CSDN主頁知乎主頁微信公眾號 平臺上。

微信搜尋"痞子衡嵌入式"或者掃描下面二維碼,就可以在手機上第一時間看了哦。

相關文章