【譯】.NET 7 中的效能改進(一)


原文 | Stephen Toub

翻譯 | 鄭子銘

一年前,我釋出了.NET 6 中的效能改進,緊接著是.NET 5.NET Core 3.0.NET Core 2.1.NET Core 2.0的類似帖子。我喜歡寫這些帖子,也喜歡閱讀開發人員對它們的回覆。去年的一條評論特別引起了我的共鳴。評論者引用了虎膽龍威的電影名言,“'當亞歷山大看到他的領域的廣度時,他為沒有更多的世界可以征服而哭泣'”,並質疑 .NET 的效能改進是否相似。水井榦涸了嗎?是否沒有更多的“[效能]世界可以征服”?我有點頭暈地說,即使 .NET 6 有多快,.NET 7 明確地強調了可以做的和已經做的更多。

與以前版本的 .NET 一樣,效能是遍及整個堆疊的關鍵焦點,無論是明確為效能建立的功能,還是在設計和實現時仍牢記效能的非效能相關功能。現在 .NET 7 候選版本即將釋出,現在是討論其中大部分內容的好時機。在過去的一年中,每次我審查可能對效能產生積極影響的 PR 時,我都會將該連結複製到我維護的期刊中,以便撰寫這篇文章。幾周前,當我坐下來寫這篇文章時,我看到了一份包含近 1000 個影響效能的 PR 的列表(在釋出的 7000 多個 PR 中),我很高興與您分享其中的近500個。


TL;DR:.NET 7 很快。真的很快。上千個影響效能的 PR 進入了這個版本的執行時和核心庫,更不用說 ASP.NET Core 和 Windows Forms 以及 Entity Framework 和其他方面的所有改進。它是有史以來最快的 .NET。如果你的經理問你為什麼你的專案應該升級到 .NET 7,你可以說“除了版本中的所有新功能之外,.NET 7 超級快。”


兩條提到的路徑都實現了我花時間寫這些帖子的主要目標之一,以突出下一個版本的偉大之處並鼓勵大家嘗試一下。但是,我對這些帖子也有其他目標。我希望每個感興趣的人在看完這篇文章後,都能對.NET是如何實現的,為什麼會做出各種決定,評估了各種權衡,採用了哪些技術,考慮了哪些演算法,以及利用了哪些有價值的工具和方法來使.NET比以前更快。我希望開發人員從我們自己的學習中學習,並找到將這些新發現的知識應用到他們自己的程式碼庫中的方法,從而進一步提高生態系統中程式碼的整體效能。我希望開發人員多做一些工作,考慮在他們下次處理棘手問題時尋求探查器,考慮檢視他們正在使用的元件的原始碼以更好地理解如何使用它,並考慮重新審視以前的假設和決策以確定它們是否仍然準確和適當。我希望開發人員對提交 PR 以改進 .NET 的前景感到興奮,不僅是為了他們自己,也是為了全球使用 .NET 的每個開發人員。如果其中任何一個聽起來很有趣,那麼我鼓勵您選擇最後一個探險:準備一瓶您最喜歡的熱飲,放鬆一下,盡情享受吧。

哦,請不要把這個列印到紙上。"列印成PDF "告訴我這將需要三分之一的卷軸。如果你想要一個格式很好的PDF,這裡有一個可以下載


  • Setup
  • JIT
  • GC
  • Native AOT
  • Mono
  • Reflection
  • Interop
  • Threading
  • Primitive Types and Numerics
  • Arrays, Strings, and Spans
  • Regex
  • Collections
  • LINQ
  • File I/O
  • Compression
  • Networking
  • JSON
  • XML
  • Cryptography
  • Diagnostics
  • Exceptions
  • Registry
  • Analyzers
  • What’s Next?


這篇文章中的微基準測試使用 benchmarkdotnet。為了讓您更輕鬆地進行自己的驗證,我為我使用的基準設定了一個非常簡單的設定。建立一個新的 C# 專案:

dotnet new console -o benchmarks
cd benchmarks

您的新基準目錄將包含一個 benchmarks.csproj 檔案和一個 Program.cs 檔案。將 benchmarks.csproj 的內容替換為:

<Project Sdk="Microsoft.NET.Sdk">


    <PackageReference Include="benchmarkdotnet" Version="0.13.2" />


以及 Program.cs 的內容:

using BenchmarkDotNet.Attributes;
using BenchmarkDotNet.Running;
using Microsoft.Win32;
using System;
using System.Buffers;
using System.Collections.Generic;
using System.Collections.Immutable;
using System.ComponentModel;
using System.Diagnostics;
using System.IO;
using System.IO.Compression;
using System.IO.MemoryMappedFiles;
using System.IO.Pipes;
using System.Linq;
using System.Net;
using System.Net.Http;
using System.Net.Http.Headers;
using System.Net.Security;
using System.Net.Sockets;
using System.Numerics;
using System.Reflection;
using System.Runtime.CompilerServices;
using System.Runtime.InteropServices;
using System.Runtime.Intrinsics;
using System.Security.Authentication;
using System.Security.Cryptography;
using System.Security.Cryptography.X509Certificates;
using System.Text;
using System.Text.Json;
using System.Text.RegularExpressions;
using System.Threading;
using System.Threading.Tasks;
using System.Xml;

[MemoryDiagnoser(displayGenColumns: false)]
[HideColumns("Error", "StdDev", "Median", "RatioSD")]
public partial class Program
    static void Main(string[] args) => BenchmarkSwitcher.FromAssembly(typeof(Program).Assembly).Run(args);

    // ... copy [Benchmark]s here

對於本文中包含的每個基準測試,您只需將程式碼複製並貼上到該測試類中,然後執行基準測試。例如,要執行基準比較 .NET 6 和 .NET 7 上的效能,請執行以下操作:

dotnet run -c Release -f net6.0 --filter '**' --runtimes net6.0 net7.0

此命令表示“在針對 .NET 6 表面區域的釋出配置中構建基準測試,然後在 .NET 6 和 .NET 7 上執行所有基準測試。”或者只在 .NET 7 上執行:

dotnet run -c Release -f net7.0 --filter '**' --runtimes net7.0

它針對 .NET 7 表面區域構建,然後只針對 .NET 7 執行一次。您可以在任何 Windows、Linux 或 macOS 上執行此操作。除非另有說明(例如,改進是針對 Unix 的,我在 Linux 上執行基準測試),否則我分享的結果是在 Windows 11 64 位上記錄的,但不是特定於 Windows 的,並且應該在另一個上顯示類似的相對差異作業系統也是如此。

第一個 .NET 7 候選版本即將釋出。這篇文章中的所有測量值都是透過最近的 .NET 7 RC1 每日構建收集的。



我想透過討論一些本身並不是效能改進的東西來開始對實時 (Just-In-Time) (JIT) 編譯器中效能改進的討論。在微調較低階別的效能敏感程式碼時,能夠準確理解 JIT 生成的彙編程式碼至關重要。有多種方法可以獲取該彙編程式碼。線上工具 sharplab.io 對此非常有用(感謝@ashmind 提供此工具);然而,它目前只針對一個版本,所以在我寫這篇文章時,我只能看到 .NET 6 的輸出,這使得它很難用於 A/B 比較。 godbolt.org 對此也很有價值,在@hez2010compiler-explorer/compiler-explorer#3168 中新增了 C# 支援,具有類似的限制。最靈活的解決方案涉及在本地獲取該彙編程式碼,因為它可以將您想要的任何版本或本地構建與您需要的任何配置和開關集進行比較。

一種常見的方法是使用 benchmarkdotnet 中的 [DisassemblyDiagnoser]。只需將 [DisassemblyDiagnoser] 屬性新增到您的測試類上:benchmarkdotnet 將找到為您的測試生成的彙編程式碼以及它們呼叫的一些深度函式,並以人類可讀的形式轉儲找到的彙編程式碼。例如,如果我執行這個測試:

using BenchmarkDotNet.Attributes;
using BenchmarkDotNet.Running;
using System;

public partial class Program
    static void Main(string[] args) => BenchmarkSwitcher.FromAssembly(typeof(Program).Assembly).Run(args);

    private int _a = 42, _b = 84;

    public int Min() => Math.Min(_a, _b);

dotnet run -c Release -f net7.0 --filter '**'

除了執行所有正常的測試執行和計時之外,benchmarkdotnet 還輸出一個包含以下內容的 Program-asm.md 檔案:

; Program.Min()
       mov       eax,[rcx+8]
       mov       edx,[rcx+0C]
       cmp       eax,edx
       jg        short M00_L01
       mov       edx,eax
       mov       eax,edx
       jmp       short M00_L00
; Total bytes of code 17

很簡約。這種支援最近在 dotnet/benchmarkdotnet#2072 中得到了進一步改進,它允許將命令列上的過濾器列表傳遞給 benchmarkdotnet,以準確地告訴它應該轉儲哪些方法的彙編程式碼。

如果你能得到.NET執行時的 "除錯 "或 "檢查 "版本("檢查 "是指已啟用最佳化但仍包括斷言的版本),特別是clrjit.dll,另一個有價值的方法是設定一個環境變數,使JIT本身吐出它發出的所有彙編程式碼的人類可讀描述。這可以用於任何型別的應用程式,因為它是JIT本身的一部分,而不是任何特定工具或其他環境的一部分,它支援顯示JIT每次生成程式碼時產生的程式碼(例如,如果它首先編譯一個沒有最佳化的方法,然後用最佳化重新編譯),總的來說,它是最準確的彙編程式碼圖片,因為它 "直接來自馬嘴",如它。當然,最大的缺點是它需要一個非釋出版的執行時,這通常意味著你需要從dotnet/runtime repo中的原始碼自己構建它。

……直到 .NET 7,也就是說。從 dotnet/runtime#73365 開始,此程式集轉儲支援現在也可在釋出版本中使用,這意味著它只是 .NET 7 的一部分,您不需要任何特殊的東西即可使用它。要看到這一點,請嘗試建立一個簡單的“hello world”應用程式,例如:

using System;

class Program
    public static void Main() => Console.WriteLine("Hello, world!");

並構建它(例如 dotnet build -c Release)。然後,將 DOTNET_JitDisasm 環境變數設定為我們關心的方法的名稱,在本例中為“Main”(允許的確切語法更為寬鬆,並允許使用萬用字元、可選的名稱空間和類名等)。當我使用 PowerShell 時,這意味著:



; Assembly listing for method Program:Main()
; Emitting BLENDED_CODE for X64 CPU with AVX - Windows
; Tier-0 compilation
; MinOpts code
; rbp based frame
; partially interruptible

G_M000_IG01:                ;; offset=0000H
       55                   push     rbp
       4883EC20             sub      rsp, 32
       488D6C2420           lea      rbp, [rsp+20H]

G_M000_IG02:                ;; offset=000AH
       48B9D820400A8E010000 mov      rcx, 0x18E0A4020D8
       488B09               mov      rcx, gword ptr [rcx]
       FF1583B31000         call     [Console:WriteLine(String)]
       90                   nop

G_M000_IG03:                ;; offset=001EH
       4883C420             add      rsp, 32
       5D                   pop      rbp
       C3                   ret

; Total bytes of code 36

Hello, world!

這對效能分析和調整有不可估量的幫助,甚至對於像 "我的函式是否被內聯 "或 "我期望被最佳化掉的這段程式碼是否真的被最佳化掉了 "這樣簡單的問題。在這篇文章的其餘部分,我將包括由這兩種機制之一產生的彙編片段,以幫助說明概念。

Performance Improvements in .NET 7


