當我們在談論高併發的時候究竟在談什麼?

hncg發表於2019-06-01

什麼是高併發?

高併發是網際網路分散式系統架構的效能指標之一,它通常是指單位時間內系統能夠同時處理的請求數,
簡單點說,就是QPS(Queries per second)。

那麼我們在談論高併發的時候,究竟在談些什麼東西呢?

高併發究竟是什麼?

這裡先給出結論:
高併發的基本表現為單位時間內系統能夠同時處理的請求數,
高併發的核心是對CPU資源的有效壓榨

舉個例子,如果我們開發了一個叫做MD5窮舉的應用,每個請求都會攜帶一個md5加密字串,最終系統窮舉出所有的結果,並返回原始字串。這個時候我們的應用場景或者說應用業務是屬於CPU密集型而不是IO密集型。這個時候CPU一直在做有效計算,甚至可以把CPU利用率跑滿,這時我們談論高併發並沒有任何意義。(當然,我們可以通過加機器也就是加CPU來提高併發能力,這個是一個正常猿都知道廢話方案,談論加機器沒有什麼意義,沒有任何高併發是加機器解決不了,如果有,那說明你加的機器還不夠多!?)

對於大多數網際網路應用來說,CPU不是也不應該是系統的瓶頸,系統的大部分時間的狀況都是CPU在等I/O (硬碟/記憶體/網路) 的讀/寫操作完成。

這個時候就可能有人會說,我看系統監控的時候,記憶體和網路都很正常,但是CPU利用率卻跑滿了這是為什麼?

這是一個好問題,後文我會給出實際的例子,再次強調上文說的 '有效壓榨' 這4個字,這4個字會圍繞本文的全部內容!

控制變數法

萬事萬物都是互相聯絡的,當我們在談論高併發的時候,系統的每個環節應該都是需要與之相匹配的。我們先來回顧一下一個經典C/S的HTTP請求流程。

clipboard.png

如圖中的序號所示:
1 我們會經過DNS伺服器的解析,請求到達負載均衡叢集
2 負載均衡伺服器會根據配置的規則,想請求分攤到服務層。服務層也是我們的業務核心層,這裡可能也會有一些PRC、MQ的一些呼叫等等
3 再經過快取層
4 最後持久化資料
5 返回資料給客戶端

要達到高併發,我們需要 負載均衡、服務層、快取層、持久層 都是高可用、高效能的,甚至在第5步,我們也可以通過 壓縮靜態檔案、HTTP2推送靜態檔案、CDN來做優化,這裡的每一層我們都可以寫幾本書來談優化。

本文主要討論服務層這一塊,即圖紅線圈出來的那部分。不再考慮講述資料庫、快取相關的影響。
高中的知識告訴我們,這個叫 控制變數法

再談併發

  • 網路程式設計模型的演變歷史

clipboard.png

併發問題一直是服務端程式設計中的重點和難點問題,為了優系統的併發量,從最初的Fork程式開始,到程式池/執行緒池,再到epoll事件驅動(Nginx、node.js反人類回撥),再到協程。
從上中可以很明顯的看出,整個演變的過程,就是對CPU有效效能壓榨的過程。
什麼?不明顯?

  • 那我們再談談上下文切換

在談論上下文切換之前,我們再明確兩個名詞的概念。
並行:兩個事件同一時刻完成。
併發:兩個事件在同一時間段內交替發生,從巨集觀上看,兩個事件都發生了

執行緒是作業系統排程的最小單位,程式是資源分配的最小單位。由於CPU是序列的,因此對於單核CPU來說,同一時刻一定是隻有一個執行緒在佔用CPU資源的。因此,Linux作為一個多工(程式)系統,會頻繁的發生程式/執行緒切換。

在每個任務執行前,CPU都需要知道從哪裡載入,從哪裡執行,這些資訊儲存在CPU暫存器和作業系統的程式計數器裡面,這兩樣東西就叫做 CPU上下文
程式是由核心來管理和排程的,程式的切換隻能發生在核心態,因此 虛擬記憶體、棧、全域性變數等使用者空間的資源,以及核心堆疊、暫存器等核心空間的狀態,就叫做 程式上下文
前面說過,執行緒是作業系統排程的最小單位。同時執行緒會共享父程式的虛擬記憶體和全域性變數等資源,因此 父程式的資源加上線上自己的私有資料就叫做執行緒的上下文

對於執行緒的上下文切換來說,如果是同一程式的執行緒,因為有資源共享,所以會比多程式間的切換消耗更少的資源。

現在就更容易解釋了,程式和執行緒的切換,會產生CPU上下文切換和程式/執行緒上下文的切換。而這些上下文切換,都是會消耗額外的CPU的資源的。

  • 進一步談談協程的上下文切換

那麼協程就不需要上下文切換了嗎?需要,但是不會產生 CPU上下文切換程式/執行緒上下文的切換,因為這些切換都是在同一個執行緒中,即使用者態中的切換,你甚至可以簡單的理解為協程上下文之間的切換,就是移動了一下你程式裡面的指標,CPU資源依舊屬於當前執行緒。
需要深刻理解的,可以再深入看看Go的GMP模型
最終的效果就是協程進一步壓榨了CPU的有效利用率

回到開始的那個問題

這個時候就可能有人會說,我看系統監控的時候,記憶體和網路都很正常,但是CPU利用率卻跑滿了這是為什麼?

注意本篇文章在談到CPU利用率的時候,一定會加上有效兩字作為定語,CPU利用率跑滿,很多時候其實是做了很多低效的計算。
以"世界上最好的語言"為例,典型PHP-FPM的CGI模式,每一個HTTP請求:
都會讀取框架的數百個php檔案,
都會重新建立/釋放一遍MYSQL/REIDS/MQ連線,
都會重新動態解釋編譯執行PHP檔案,
都會在不同的php-fpm程式直接不停的切換切換再切換。

php的這種CGI執行模式,根本上就決定了它在高併發上的災難性表現

找到問題,往往比解決問題更難。當我們理解了當我們在談論高併發究竟在談什麼 之後,我們會發現高併發和高效能並不是程式語言限制了你,限制你的只是你的思想。

找到問題,解決問題!當我們能有效壓榨CPU效能之後,能達到什麼樣的效果?

下面我們看看 php+swoole的HTTP服務 與 Java高效能的非同步框架netty的HTTP服務之間的效能差異對比。

效能對比前的準備

Swoole是一個為PHP用C和C++編寫的基於事件的高效能非同步&協程並行網路通訊引擎
Netty是由JBOSS提供的一個java開源框架。 Netty提供非同步的、事件驅動的網路應用程式框架和工具,用以快速開發高效能、高可靠性的網路伺服器和客戶端程式。
  • 單機能夠達到的最大HTTP連線數是多少?

回憶一下計算機網路的相關知識,HTTP協議是應用層協議,在傳輸層,每個TCP連線建立之前都會進行三次握手。
每個TCP連線由 本地ip,本地埠,遠端ip,遠端埠,四個屬性標識。
TCP協議報文頭如下(圖片來自維基百科):

clipboard.png

本地埠由16位組成,因此本地埠的最多數量為 2^16 = 65535個。
遠端埠由16位組成,因此遠端埠的最多數量為 2^16 = 65535個。
同時,在linux底層的網路程式設計模型中,每個TCP連線,作業系統都會維護一個File descriptor(fd)檔案來與之對應,而fd的數量限制,可以由ulimt -n 命令檢視和修改,測試之前我們可以執行命令: ulimit -n 65536修改這個限制為65535。

因此,在不考慮硬體資源限制的情況下,
本地的最大HTTP連線數為: 本地最大埠數65535 * 本地ip數1 = 65535 個。
遠端的最大HTTP連線數為:遠端最大埠數65535 * 遠端(客戶端)ip數+∞ = 無限制~~ 。
PS: 實際上作業系統會有一些保留埠占用,因此本地的連線數實際也是達不到理論值的。

效能對比

  • 測試資源

各一臺docker容器,1G記憶體+2核CPU,如圖所示:

clipboard.png

docker-compose編排如下:

# java8
version: "2.2"
services:
  java8:
    container_name: "java8"
    hostname: "java8"
    image: "java:8"
    volumes:
      - /home/cg/MyApp:/MyApp
    ports:
      - "5555:8080"
    environment:
      - TZ=Asia/Shanghai
    working_dir: /MyApp
    cpus: 2
    cpuset: 0,1

    mem_limit: 1024m
    memswap_limit: 1024m
    mem_reservation: 1024m
    tty: true
    
# php7-sw
version: "2.2"
services:
  php7-sw:
    container_name: "php7-sw"
    hostname: "php7-sw"
    image: "mileschou/swoole:7.1"
    volumes:
      - /home/cg/MyApp:/MyApp
    ports:
      - "5551:8080"
    environment:
      - TZ=Asia/Shanghai
    working_dir: /MyApp
    cpus: 2
    cpuset: 0,1

    mem_limit: 1024m
    memswap_limit: 1024m
    mem_reservation: 1024m
    tty: true    
  • php程式碼
<?php

use Swoole\Server;
use Swoole\Http\Response;

$http = new swoole_http_server("0.0.0.0", 8080);
$http->set([
    'worker_num' => 2
]);
$http->on("request", function ($request, Response $response) {
    //go(function () use ($response) {
        // Swoole\Coroutine::sleep(0.01);
        $response->end('Hello World');
    //});
});

$http->on("start", function (Server $server) {
    go(function () use ($server) {
        echo "server listen on 0.0.0.0:8080 \n";
    });
});
$http->start();
  • Java關鍵程式碼

原始碼來自, https://github.com/netty/netty

    public static void main(String[] args) throws Exception {
        // Configure SSL.
        final SslContext sslCtx;
        if (SSL) {
            SelfSignedCertificate ssc = new SelfSignedCertificate();
            sslCtx = SslContextBuilder.forServer(ssc.certificate(), ssc.privateKey()).build();
        } else {
            sslCtx = null;
        }

        // Configure the server.
        EventLoopGroup bossGroup = new NioEventLoopGroup(2);
        EventLoopGroup workerGroup = new NioEventLoopGroup();
        try {
            ServerBootstrap b = new ServerBootstrap();
            b.option(ChannelOption.SO_BACKLOG, 1024);
            b.group(bossGroup, workerGroup)
             .channel(NioServerSocketChannel.class)
             .handler(new LoggingHandler(LogLevel.INFO))
             .childHandler(new HttpHelloWorldServerInitializer(sslCtx));

            Channel ch = b.bind(PORT).sync().channel();

            System.err.println("Open your web browser and navigate to " +
                    (SSL? "https" : "http") + "://127.0.0.1:" + PORT + '/');

            ch.closeFuture().sync();
        } finally {
            bossGroup.shutdownGracefully();
            workerGroup.shutdownGracefully();
        }
    }

因為我只給了兩個核心的CPU資源,所以兩個服務均只開啟連個work程式即可。
5551埠表示PHP服務。
5555埠表示Java服務。

  • 壓測工具結果對比:ApacheBench (ab)

ab命令: docker run --rm jordi/ab -k -c 1000 -n 1000000 http://10.234.3.32:5555/
在併發1000進行100萬次Http請求的基準測試中,

Java + netty 壓測結果:

clipboard.png

clipboard.png

PHP + swoole 壓測結果:

clipboard.png

clipboard.png

服務 QPS 響應時間ms(max,min) 記憶體(MB)
Java + netty 84042.11 (11,25) 600+
php + swoole 87222.98 (9,25) 30+

ps: 上圖選擇的是三次壓測下的最佳結果。

總的來說,效能差異並不大,PHP+swoole的服務甚至比Java+netty的服務還要稍微好一點,特別是在記憶體佔用方面,java用了600MB,php只用了30MB。
這能說明什麼呢?
沒有IO阻塞操作,不會發生協程切換。
這個僅僅只能說明 多執行緒+epoll的模式下,有效的壓榨CPU效能,你甚至用PHP都能寫出高併發和高效能的服務。

效能對比——見證奇蹟的時刻

上面程式碼其實並沒有展現出協程的優秀效能,因為整個請求沒有阻塞操作,但往往我們的應用會伴隨著例如 文件讀取、DB連線/查詢 等各種阻塞操作,下面我們看看加上阻塞操作後,壓測結果如何。
Java和PHP程式碼中,我都分別加上 sleep(0.01) //秒的程式碼,模擬0.01秒的系統呼叫阻塞。
程式碼就不再重複貼上來了。

帶IO阻塞操作的 Java + netty 壓測結果:

clipboard.png

大概10分鐘才能跑完所有壓測。。。

帶IO阻塞操作的 PHP + swoole 壓測結果:

clipboard.png

服務 QPS 響應時間ms(max,min) 記憶體(MB)
Java + netty 1562.69 (52,160) 100+
php + swoole 9745.20 (9,25) 30+

從結果中可以看出,基於協程的php+ swoole服務比 Java + netty服務的QPS高了6倍。

當然,這兩個測試程式碼都是官方demo中的原始碼,肯定還有很多可以優化的配置,優化之後,結果肯定也會好很多。

可以再思考下,為什麼官方預設執行緒/程式數量不設定的更多一點呢?
程式/執行緒數量可不是越多越好哦,前面我們已經討論過了,在程式/執行緒切換的時候,會產生額外的CPU資源花銷,特別是在使用者態和核心態之間切換的時候!

對於這些壓測結果來說,我並不是針對Java,我是指 只要明白了高併發的核心是什麼,找到這個目標,無論用什麼程式語言,只要針對CPU利用率做有效的優化(連線池、守護程式、多執行緒、協程、select輪詢、epoll事件驅動),你也能搭建出一個高併發和高效能的系統。

所以,你現在明白了,當我們在談論高效能的時候,究竟在談什麼了嗎?

思路永遠比結果重要!

本文歡迎轉載,轉載請註明作者和出處即可,謝謝!

相關文章