




Torch C++ 程式碼並不是 CUDA 核心,它在底層是呼叫 CUDNN 庫。
報告重點強調的 Conv3D GroupNorm 示例中,卷積程式碼根本沒有被生成。如果數值計算結果不正確,聲稱的速度提升就沒有意義。
報告中聲稱 WMMA 可以比 PyTorch(CUBLAS)更快,這絕對是錯誤的。很可能是基準測試出現了問題。



介紹了一個端到端的智慧體工作流,能夠將 PyTorch 程式碼翻譯成可工作的 CUDA 核心,最佳化 CUDA 執行時效能,並自動融合多個核心。
構建了各種技術來增強 pipeline 的一致性和效能,包括 LLM 整合、迭代分析反饋迴圈、本地核心程式碼編輯和交叉核心最佳化。
報告顯示,「AI CUDA 工程師」穩健地翻譯了被考慮在內的 250 個 torch 操作中的 230 多個,並且對大多數核心實現了強大的執行時效能改進。此外,該團隊的方法能夠有效地融合各種核心操作,並且可以超越幾種現有的加速操作。
釋出了一個包含超過 17,000 個經驗證核心的資料集,這些核心涵蓋了廣泛的 PyTorch 操作。






