python單程式能否利用多核cpu的測試結論

發表於2016-01-22

在很早的時候，就聽網上的文章說:

python有GIL，所以在單程式內，即使使用多執行緒也無法利用到多核的優勢，同一時刻，python的位元組碼只會執行在一個cpu上。

以前也是奉為真理，直到今天在對自己的python server做效能測試的時候，發現一個python程式的cpu居然達到了120%。

當用c++程式設計的時候，如果使用多執行緒，那麼確實程式cpu超過100%非常正常，但是對python來說，似乎這樣就和網上的文章衝突了。

所以還是決定自己親身試驗一下，編寫程式碼如下：

from thread import start_new_thread

def worker():
    while 1:
        #print 1
        pass

for it in range(0, 15):
    start_new_thread(worker, ())

raw_input()

from thread import start_new_thread

def worker():

while 1:

#print 1

pass

for it in range(0, 15):

start_new_thread(worker, ())

raw_input()

執行環境為： centos6.4 64位， python 2.7.

得到的結果如下:

E588C2D7 1608 42CC B800 AD5338C87F47

可以清楚的看到，pid為31199的python程式cpu達到了787.9%，接近理論能達到的最大值 800%。

而上方的8個cpu也分別達到了近100%的利用率。

如果只是按照以上測試結果，確實可以得出的結論：python使用單程式，多執行緒確實能夠使用到多核cpu，並不是網上傳的結論。

但是，還是希望如果有讀者對這塊有更深入的研究能夠進行批評指正，謝謝～

8月15日補充

感謝 la.onger 等幾位博友的討論，現在增加一個測試，用來測試純cpu計算用一個執行緒or多個執行緒完成的總時間的差別，程式碼如下:

import time
from threading import Thread

LOOPS = 1000000
THREAD_NUM = 10
STEP_SIZE = 94753434

class Test(object):
    num = 1

    def work(self):
        for it in xrange(0, LOOPS):
            if self.num &gt; STEP_SIZE:
                self.num -= STEP_SIZE
            else:
                self.num += STEP_SIZE

    def one_thread_test(self):
        self.num = 1

        begin_time = time.time()

        for v in xrange(0, THREAD_NUM):
            self.work()

        print 'time passed: ', time.time() - begin_time

    def multi_thread_test(self):
        self.num = 1

        t_list = []

        begin_time = time.time()

        for v in xrange(0, THREAD_NUM):
            t = Thread(target=self.work)
            t.start()
            t_list.append(t)

        for it in t_list:
            it.join()

        print 'time passed: ', time.time() - begin_time

t = Test()
t.one_thread_test()
t.multi_thread_test()

import time

from threading import Thread

LOOPS = 1000000

THREAD_NUM = 10

STEP_SIZE = 94753434

class Test(object):

num = 1

def work(self):

for it in xrange(0, LOOPS):

if self.num > STEP_SIZE:

self.num -= STEP_SIZE

else:

self.num += STEP_SIZE

def one_thread_test(self):

self.num = 1

begin_time = time.time()

for v in xrange(0, THREAD_NUM):

self.work()

print 'time passed: ', time.time() - begin_time

def multi_thread_test(self):

self.num = 1

t_list = []

begin_time = time.time()

for v in xrange(0, THREAD_NUM):

t = Thread(target=self.work)

t.start()

t_list.append(t)

for it in t_list:

it.join()

print 'time passed: ', time.time() - begin_time

t = Test()

t.one_thread_test()

t.multi_thread_test()

輸入結果如下:

time passed:  3.44264101982
time passed:  7.22910785675

1 2	time passed: 3.44264101982 time passed: 7.22910785675

使用多執行緒後，比不用多執行緒還慢

為了與c++版做對比，也開發了c++程式碼如下：

#include <stdio.h>
#include <string.h>
#include <stdint.h>
#include <iostream>
#include <memory>
#include <sstream>
#include <algorithm>
#include <string>
#include <vector>
#include <set>
#include <map>
#include <sys/time.h>
#include <pthread.h>
using namespace std;

#define LOOPS 1000000
#define THREAD_NUM 10
#define STEP_SIZE   94753434

class Test
{
public:
    Test() {}
    virtual ~Test() {}

    void one_thread_test() {
        this->num = 1;

        gettimeofday(&m_tpstart,NULL);
        for (size_t i = 0; i < THREAD_NUM; ++i)
        {
            work();
        }

        gettimeofday(&m_tpend,NULL);

        long long timeuse=1000000*(long long)(m_tpend.tv_sec-m_tpstart.tv_sec)+m_tpend.tv_usec-m_tpstart.tv_usec;//微秒

        printf("time passed: %f\n", ((double)timeuse) / 1000000);
    }

    void multi_thread_test() {
        this->num = 1;
        int ret;

        vector<pthread_t> vecThreadId;//所有thread的id

        pthread_attr_t attr;
        pthread_attr_init (&attr);
        pthread_attr_setdetachstate (&attr, PTHREAD_CREATE_DETACHED);

        gettimeofday(&m_tpstart,NULL);

        pthread_t threadId;
        for (int i = 0; i < THREAD_NUM; i++)
        {
            ret= pthread_create(&threadId, &attr, Test::static_run_work, (void*)this);
            if(ret!=0){
                pthread_attr_destroy (&attr);
            }
            vecThreadId.push_back(threadId);
        }
        pthread_attr_destroy (&attr);
        for(vector<pthread_t>::iterator it = vecThreadId.begin(); it != vecThreadId.end(); ++it)
        {
            pthread_join(*it, NULL);
        }

        gettimeofday(&m_tpend,NULL);

        long long timeuse=1000000*(long long)(m_tpend.tv_sec-m_tpstart.tv_sec)+m_tpend.tv_usec-m_tpstart.tv_usec;//微秒

        printf("time passed: %f\n", ((double)timeuse) / 1000000);
    }

    void work() {
        for (size_t i = 0; i < LOOPS; ++i) {
            if (this->num > STEP_SIZE) {
                this->num -= STEP_SIZE;
            }
            else {
                this->num += STEP_SIZE;
            }
        }
    }

    static void* static_run_work(void *args) {
        Test* t = (Test*) args;
        t->work();

        return NULL;
    }

public:
    int64_t num;
    struct timeval m_tpstart,m_tpend;
};

int main(int argc, char **argv)
{
    Test test;

    test.one_thread_test();
    test.multi_thread_test();
    return 0;
}

100

101

102

103

104

105

106

#include <stdio.h>

#include <string.h>

#include <stdint.h>

#include <iostream>

#include <memory>

#include <sstream>

#include <algorithm>

#include <string>

#include <vector>

#include <set>

#include <map>

#include <sys/time.h>

#include <pthread.h>

using namespace std;

#define LOOPS 1000000

#define THREAD_NUM 10

#define STEP_SIZE 94753434

class Test

{

public:

Test() {}

virtual ~Test() {}

void one_thread_test() {

this->num = 1;

gettimeofday(&m_tpstart,NULL);

for (size_t i = 0; i < THREAD_NUM; ++i)

{

work();

}

gettimeofday(&m_tpend,NULL);

long long timeuse=1000000*(long long)(m_tpend.tv_sec-m_tpstart.tv_sec)+m_tpend.tv_usec-m_tpstart.tv_usec;//微秒

printf("time passed: %f\n", ((double)timeuse) / 1000000);

}

void multi_thread_test() {

this->num = 1;

int ret;

vector<pthread_t> vecThreadId;//所有thread的id

pthread_attr_t attr;

pthread_attr_init (&attr);

pthread_attr_setdetachstate (&attr, PTHREAD_CREATE_DETACHED);

gettimeofday(&m_tpstart,NULL);

pthread_t threadId;

for (int i = 0; i < THREAD_NUM; i++)

{

ret= pthread_create(&threadId, &attr, Test::static_run_work, (void*)this);

if(ret!=0){

pthread_attr_destroy (&attr);

}

vecThreadId.push_back(threadId);

}

pthread_attr_destroy (&attr);

for(vector<pthread_t>::iterator it = vecThreadId.begin(); it != vecThreadId.end(); ++it)

{

pthread_join(*it, NULL);

}

gettimeofday(&m_tpend,NULL);

long long timeuse=1000000*(long long)(m_tpend.tv_sec-m_tpstart.tv_sec)+m_tpend.tv_usec-m_tpstart.tv_usec;//微秒

printf("time passed: %f\n", ((double)timeuse) / 1000000);

}

void work() {

for (size_t i = 0; i < LOOPS; ++i) {

if (this->num > STEP_SIZE) {

this->num -= STEP_SIZE;

}

else {

this->num += STEP_SIZE;

}

static void* static_run_work(void *args) {

Test* t = (Test*) args;

t->work();

return NULL;

}

public:

int64_t num;

struct timeval m_tpstart,m_tpend;

};

int main(int argc, char **argv)

{

Test test;

test.one_thread_test();

test.multi_thread_test();

return 0;

}

輸出結果如下：

time passed: 0.036114
time passed: 0.000513

1 2	time passed: 0.036114 time passed: 0.000513

可見，c++版確實效能提高了非常多。
由此可見，python的多執行緒程式設計，在多核cpu利用上確實差一些。

CPU單核多核區別【轉載】
2018-08-27
單核
如果利用 python 對 java 程式碼進行單元測試？
2020-10-20
PythonJava
對多執行緒程式，單核cpu與多核cpu如何工作相關的探討
2019-01-19
執行緒單核
單元測試-【轉】論單元測試的重要性
2019-01-21
聊聊CPU的發展歷程之單核、多核、超執行緒
2022-12-15
單核執行緒
利用白名單繞過限制的更多測試
2020-08-19
當多核變單核：破解CPU核心神秘失蹤的終極指南！
2024-10-23
單核
python 單元測試
2024-04-13
Python
用pyinstaller打包你的Python程式並繫結CPU
2019-01-14
Python
iOS GCD入門和GCD對CPU多核的使用
2018-08-02
iOSGC
Python中的單元測試框架：使用unittest進行有效測試
2024-03-06
Python框架
檢視伺服器CPU的個數、CPU的核數、多核超執行緒數
2020-12-06
伺服器執行緒
win10 如何開啟多核_win10cpu怎麼開啟多核執行
2020-08-10
Win10
如何編寫優秀的測試程式碼|單元測試
2021-01-28
基本資料結構實現--單連結串列【含測試程式碼】
2021-06-28
資料結構
SpringBoot與單元測試JUnit的結合
2020-04-24
Spring Boot
Mock 在 Python 單元測試中的使用
2021-09-09
MockPython
程式碼重構與單元測試——重構1的單元測試（四）
2021-07-22
測試員進階技能：如何有效地利用單元測試報告？
2022-08-10
測試報告
pytest 能否執行 nose 寫的測試用例
2020-06-15
Macaca 能否做桌面版程式的自動化測試呢？(Electron 打包的 exe)
2020-12-21
Mac
利用Twemperf測試Memcache的效能
2019-08-05
CAS之單核/多核理解
2019-12-11
單核
單元測試：單元測試中的mock
2021-01-20
Mock
菜鳥小白的測試基礎理論總結（一）
2020-07-20
測試開發之單元測試-禪道結合ZTF驅動單元測試執行
2023-05-12
Spring Boot單元測試之服務層測試總結
2019-03-27
Spring Boot
Python單元測試框架pytest常用測試報告型別
2021-02-04
Python框架測試報告型別
電腦科學和Python程式設計導論(六) 測試與除錯
2018-07-27
Python程式設計除錯
測試評論
2018-09-29
測試理論
2020-12-02
單元測試&反射機制（未完結）
2020-11-11
反射
Python和單元測試那些事兒
2018-08-15
Python
Python容器相關簡單效能測試
2024-08-24
Python
【討論】論 cursor 在測試中的使用
2024-09-19
記錄python介面自動化測試--利用unittest生成測試報告(第四目)
2018-03-27
Python測試報告
Python tkinter矩形縮放測試程式
2020-10-30
Python
測試之Java單元測試、Android單元測試
2018-06-23
JavaAndroid
Spring Boot之DAO層的單元測試小結
2019-03-28
Spring Boot

python單程式能否利用多核cpu的測試結論

相關文章