- 優化演算法時間複雜度
演算法的時間複雜度對程式的執行效率影響最大,在Python中可以通過選擇合適的資料結構來優化時間複雜度,如list和set查詢某一個元素的時間複雜度分別是O(n)和O(1)。不同的場景有不同的優化方式,總得來說,一般有分治,分支界限,貪心,動態規劃等思想。
-
減少冗餘資料
如用上三角或下三角的方式去儲存一個大的對稱矩陣。在0元素佔大多數的矩陣裡使用稀疏矩陣表示。
-
合理使用copy與deepcopy
對於dict和list等資料結構的物件,直接賦值使用的是引用的方式。而有些情況下需要複製整個物件,這時可以使用copy包裡的copy和deepcopy,這兩個函式的不同之處在於後者是遞迴複製的。效率也不一樣:(以下程式在ipython中執行)
12345678import copya = range(100000)%timeit -n 10 copy.copy(a) # 執行10次 copy.copy(a)%timeit -n 10 copy.deepcopy(a)10 loops, best of 3: 1.55 ms per loop10 loops, best of 3: 151 ms per looptimeit後面的-n表示執行的次數,後兩行對應的是兩個timeit的輸出,下同。由此可見後者慢一個數量級。
-
使用dict或set查詢元素
python dict和set都是使用hash表來實現(類似c++11標準庫中unordered_map),查詢元素的時間複雜度是O(1)
123456789a = range(1000)s = set(a)d = dict((i,1) for i in a)%timeit -n 10000 100 in d%timeit -n 10000 100 in s10000 loops, best of 3: 43.5 ns per loop10000 loops, best of 3: 49.6 ns per loopdict
的效率略高(佔用的空間也多一些)。 -
合理使用生成器(generator)和yield
123456%timeit -n 100 a = (i for i in range(100000))%timeit -n 100 b = [i for i in range(100000)]100 loops, best of 3: 1.54 ms per loop100 loops, best of 3: 4.56 ms per loop使用
()
得到的是一個generator物件,所需要的記憶體空間與列表的大小無關,所以效率會高一些。在具體應用上,比如set(i for i in range(100000))會比set([i for i in range(100000)])快。但是對於需要迴圈遍歷的情況:
123456%timeit -n 10 for x in (i for i in range(100000)): pass%timeit -n 10 for x in [i for i in range(100000)]: pass10 loops, best of 3: 6.51 ms per loop10 loops, best of 3: 5.54 ms per loop後者的效率反而更高,但是如果迴圈裡有break,用generator的好處是顯而易見的。
yield
也是用於建立generator:1234567891011121314def yield_func(ls):for i in ls:yield i+1def not_yield_func(ls):return [i+1 for i in ls]ls = range(1000000)%timeit -n 10 for i in yield_func(ls):pass%timeit -n 10 for i in not_yield_func(ls):pass10 loops, best of 3: 63.8 ms per loop10 loops, best of 3: 62.9 ms per loop對於記憶體不是非常大的list,可以直接返回一個list,但是可讀性
yield
更佳(人個喜好)。python2.x內建generator功能的有xrange函式、itertools包等。
-
優化迴圈
迴圈之外能做的事不要放在迴圈內,比如下面的優化可以快一倍:
12345678a = range(10000)size_a = len(a)%timeit -n 1000 for i in a: k = len(a)%timeit -n 1000 for i in a: k = size_a1000 loops, best of 3: 569 µs per loop1000 loops, best of 3: 256 µs per loop -
優化包含多個判斷表示式的順序
對於and,應該把滿足條件少的放在前面,對於or,把滿足條件多的放在前面。如:
12345678910111213a = range(2000)%timeit -n 100 [i for i in a if 10 < i < 20 or 1000 < i < 2000]%timeit -n 100 [i for i in a if 1000 < i < 2000 or 100 < i < 20]%timeit -n 100 [i for i in a if i % 2 == 0 and i > 1900]%timeit -n 100 [i for i in a if i > 1900 and i % 2 == 0]100 loops, best of 3: 287 µs per loop100 loops, best of 3: 214 µs per loop100 loops, best of 3: 128 µs per loop100 loops, best of 3: 56.1 µs per loop -
使用join合併迭代器中的字串
1234567891011In [1]: %%timeit...: s = ''...: for i in a:...: s += i...:10000 loops, best of 3: 59.8 µs per loopIn [2]: %%timeits = ''.join(a)...:100000 loops, best of 3: 11.8 µs per loopjoin
對於累加的方式,有大約5倍的提升。 -
選擇合適的格式化字元方式
12345678910s1, s2 = 'ax', 'bx'%timeit -n 100000 'abc%s%s' % (s1, s2)%timeit -n 100000 'abc{0}{1}'.format(s1, s2)%timeit -n 100000 'abc' + s1 + s2100000 loops, best of 3: 183 ns per loop100000 loops, best of 3: 169 ns per loop100000 loops, best of 3: 103 ns per loop三種情況中,
%
的方式是最慢的,但是三者的差距並不大(都非常快)。(個人覺得%
的可讀性最好) -
不借助中間變數交換兩個變數的值
1234567891011In [3]: %%timeit -n 10000a,b=1,2....: c=a;a=b;b=c;....:10000 loops, best of 3: 172 ns per loopIn [4]: %%timeit -n 10000a,b=1,2a,b=b,a....:10000 loops, best of 3: 86 ns per loop使用
a,b=b,a
而不是c=a;a=b;b=c;
來交換a,b的值,可以快1倍以上。 -
使用
if is
1234567a = range(10000)%timeit -n 100 [i for i in a if i == True]%timeit -n 100 [i for i in a if i is True]100 loops, best of 3: 531 µs per loop100 loops, best of 3: 362 µs per loop使用
if is True
比if == True
將近快一倍。 -
使用級聯比較
x < y < z
1234567x, y, z = 1,2,3%timeit -n 1000000 if x < y < z:pass%timeit -n 1000000 if x < y and y < z:pass1000000 loops, best of 3: 101 ns per loop1000000 loops, best of 3: 121 ns per loopx < y < z
效率略高,而且可讀性更好。 -
while 1
比while True
更快123456789101112131415161718def while_1():n = 100000while 1:n -= 1if n <= 0: breakdef while_true():n = 100000while True:n -= 1if n <= 0: breakm, n = 1000000, 1000000%timeit -n 100 while_1()%timeit -n 100 while_true()100 loops, best of 3: 3.69 ms per loop100 loops, best of 3: 5.61 ms per loopwhile 1 比 while true快很多,原因是在python2.x中,True是一個全域性變數,而非關鍵字。
-
使用
**
而不是pow123456%timeit -n 10000 c = pow(2,20)%timeit -n 10000 c = 2**2010000 loops, best of 3: 284 ns per loop10000 loops, best of 3: 16.9 ns per loop**
就是快10倍以上! -
使用 cProfile, cStringIO 和 cPickle等用c實現相同功能(分別對應profile, StringIO, pickle)的包
123456789import cPickleimport picklea = range(10000)%timeit -n 100 x = cPickle.dumps(a)%timeit -n 100 x = pickle.dumps(a)100 loops, best of 3: 1.58 ms per loop100 loops, best of 3: 17 ms per loop由c實現的包,速度快10倍以上!
-
使用最佳的反序列化方式
下面比較了eval, cPickle, json方式三種對相應字串反序列化的效率:
123456789101112131415import jsonimport cPicklea = range(10000)s1 = str(a)s2 = cPickle.dumps(a)s3 = json.dumps(a)%timeit -n 100 x = eval(s1)%timeit -n 100 x = cPickle.loads(s2)%timeit -n 100 x = json.loads(s3)100 loops, best of 3: 16.8 ms per loop100 loops, best of 3: 2.02 ms per loop100 loops, best of 3: 798 µs per loop可見json比cPickle快近3倍,比eval快20多倍。
-
使用C擴充套件(Extension)
目前主要有CPython(python最常見的實現的方式)原生API, ctypes,Cython,cffi三種方式,它們的作用是使得Python程式可以呼叫由C編譯成的動態連結庫,其特點分別是:
CPython原生API: 通過引入
Python.h
標頭檔案,對應的C程式中可以直接使用Python的資料結構。實現過程相對繁瑣,但是有比較大的適用範圍。ctypes: 通常用於封裝(wrap)C程式,讓純Python程式呼叫動態連結庫(Windows中的dll或Unix中的so檔案)中的函式。如果想要在python中使用已經有C類庫,使用ctypes是很好的選擇,有一些基準測試下,python2+ctypes是效能最好的方式。
Cython: Cython是CPython的超集,用於簡化編寫C擴充套件的過程。Cython的優點是語法簡潔,可以很好地相容numpy等包含大量C擴充套件的庫。Cython的使得場景一般是針對專案中某個演算法或過程的優化。在某些測試中,可以有幾百倍的效能提升。
cffi: cffi的就是ctypes在pypy(詳見下文)中的實現,同進也相容CPython。cffi提供了在python使用C類庫的方式,可以直接在python程式碼中編寫C程式碼,同時支援連結到已有的C類庫。
使用這些優化方式一般是針對已有專案效能瓶頸模組的優化,可以在少量改動原有專案的情況下大幅度地提高整個程式的執行效率。
-
並行程式設計
因為GIL的存在,Python很難充分利用多核CPU的優勢。但是,可以通過內建的模組multiprocessing實現下面幾種並行模式:
多程式:對於CPU密集型的程式,可以使用multiprocessing的Process,Pool等封裝好的類,通過多程式的方式實現平行計算。但是因為程式中的通訊成本比較大,對於程式之間需要大量資料互動的程式效率未必有大的提高。
多執行緒:對於IO密集型的程式,multiprocessing.dummy模組使用multiprocessing的介面封裝threading,使得多執行緒程式設計也變得非常輕鬆(比如可以使用Pool的map介面,簡潔高效)。
分散式:multiprocessing中的Managers類提供了可以在不同程式之共享資料的方式,可以在此基礎上開發出分散式的程式。
不同的業務場景可以選擇其中的一種或幾種的組合實現程式效能的優化。
-
終級大殺器:PyPy
PyPy是用RPython(CPython的子集)實現的Python,根據官網的基準測試資料,它比CPython實現的Python要快6倍以上。快的原因是使用了Just-in-Time(JIT)編譯器,即動態編譯器,與靜態編譯器(如gcc,javac等)不同,它是利用程式執行的過程的資料進行優化。由於歷史原因,目前pypy中還保留著GIL,不過正在進行的STM專案試圖將PyPy變成沒有GIL的Python。
如果python程式中含有C擴充套件(非cffi的方式),JIT的優化效果會大打折扣,甚至比CPython慢(比Numpy)。所以在PyPy中最好用純Python或使用cffi擴充套件。
隨著STM,Numpy等專案的完善,相信PyPy將會替代CPython。
-
使用效能分析工具
除了上面在ipython使用到的timeit模組,還有cProfile。cProfile的使用方式也非常簡單:
python -m cProfile filename.py
,filename.py
是要執行程式的檔名,可以在標準輸出中看到每一個函式被呼叫的次數和執行的時間,從而找到程式的效能瓶頸,然後可以有針對性地優化。
參考
[1] http://www.ibm.com/developerworks/cn/linux/l-cn-python-optim/
[2] http://maxburstein.com/blog/speeding-up-your-python-code/