Python的“祕密”被曝光,GitHub斬獲20000星

程式設計師啟航發表於2019-06-22
Python的“祕密”被曝光,GitHub斬獲20000星


Python,是一個設計優美的解釋型高階語言,它提供了很多能讓程式設計師感到舒適的功能特性。

但有的時候,Python一些特性導致的輸出結果,對於初學者就很難理解了。

一個解析51項堪稱是“祕密”的Python特性專案,在GitHub上徹底。火了。

英文原版已經拿到了近15000星,中文翻譯版也獲得了7500+星。

Python的“祕密”被曝光,GitHub斬獲20000星
Python的“祕密”被曝光,GitHub斬獲20000星

專案中的部分內容,也許你聽說過,但依然可能會透露一些你所不知道的Python有趣特性。

我覺得這是學習程式語言內部原理的好機會,而且我相信你也會從中獲得樂趣!

如果你是一位經驗比較豐富的Python程式設計師,你可以試試能否一次就找到正確答案。

也許你對其中的一些例子比較熟悉,那這些案例能喚起你當年踩坑時的甜蜜回憶。如果你依然在程式設計的世界裡迷茫,不知道自己的未來規劃可以加入我們的Python秋秋裙去784掉758文214字看看前輩們如何學習的!交流經驗!自己是一名高階python開發工程師,從基礎的python指令碼到web開發、爬蟲、django、資料探勘等,零基礎到專案實戰的資料都有整理。送給每一位python的小夥伴!分享一些學習的方法和需要注意的小細節

這個專案的中文版全文大約2萬字,乾貨多的快要溢位來了,大家可以先看一下目錄。

Python的“祕密”被曝光,GitHub斬獲20000星

示例結構

所有示例的結構都如下所示:

> 一個精選的標題
# 準備程式碼.
# 釋放魔法...
Output (Python version):
>>> 觸發語句
出乎意料的輸出結果
(可選): 對意外輸出結果的簡短描述。
說明:
簡要說明發生了什麼以及為什麼會發生。
如有必要,舉例說明
Output:
>>>觸發語句#一些讓魔法變得容易理解的例子
#一些正常的輸入

注意:所有的示例都在Python3.5.2版本的互動直譯器上測試過,如果不特別說明應該適用於所有Python版本。

用法

我個人建議,最好依次閱讀下面的示例,並仔細閱讀設定例子最開始的程式碼。

閱讀輸出結果

  • 確認結果是否如你所料.

  • 確認你是否知道這背後的原理

示例

微妙的字串

1.  >>> a = "some_string" 
2.  >>> id(a) 
3.  140420665652016 
4.  >>> id("some" + "_" + "string") # 注意兩個的id值是相同的. 
5.  140420665652016
1.  >>> a = "wtf" 
2.  >>> b = "wtf" 
3.  >>> a is b 
4.  True 
6.  >>> a = "wtf!" 
7.  >>> b = "wtf!" 
8.  >>> a is b 
9.  False 
11.  >>> a, b = "wtf!", "wtf!" 
12.  >>> a is b 
13.  True
1.  >>> 'a' * 20 is 'aaaaaaaaaaaaaaaaaaaa' 
2.  True 
3.  >>> 'a' * 21 is 'aaaaaaaaaaaaaaaaaaaaa' 
4.  False

說明:

這些行為是由於 Cpython 在編譯優化時,某些情況下會嘗試使用已經存在的不可變物件,而不是每次都建立一個新物件。(這種行為被稱作字串的駐留[string interning])

發生駐留之後,許多變數可能指向記憶體中的相同字串物件。(從而節省記憶體)

在上面的程式碼中,字串是隱式駐留的。何時發生隱式駐留則取決於具體的實現。這裡有一些方法可以用來猜測字串是否會被駐留:

所有長度為 0 和長度為 1 的字串都被駐留。

字串在編譯時被實現。('wtf' 將被駐留, 但是 ''.join(['w', 't', 'f'] 將不會被駐留)

字串中只包含字母,數字或下劃線時將會駐留。所以 'wtf!' 由於包含!而未被駐留。可以在這裡找CPython對此規則的實現。

Python的“祕密”被曝光,GitHub斬獲20000星

當在同一行將 a 和 b 的值設定為 "wtf!" 的時候, Python 直譯器會建立一個新物件, 然後同時引用第二個變數。

如果你在不同的行上進行賦值操作, 它就不會“知道”已經有一個 wtf! 物件 (因為 "wtf!" 不是按照上面提到的方式被隱式駐留的)。

它是一種編譯器優化,特別適用於互動式環境。

常量摺疊(constant folding) 是 Python 中的一種窺孔優化(peephole optimization) 技術。

這意味著在編譯時表示式 'a'*20 會被替換為 'aaaaaaaaaaaaaaaaaaaa' 以減少執行時的時鐘週期。

只有長度小於 20 的字串才會發生常量摺疊。(為啥? 想象一下由於表示式'a' 10 *10 而生成的 .pyc 檔案的大小)相關的原始碼:

https://github.com/python/cpython/blob/3.6/Python/peephole.c#L288

是時候來點蛋糕了!

1.  some_dict = {} 
2.  some_dict[5.5] = "Ruby" 
3.  some_dict[5.0] = "JavaScript" 
4.  some_dict[5] = "Python" 
6.  Output: 
8.  >>> some_dict[5.5] 
9.  "Ruby" 
10.  >>> some_dict[5.0] 
11.  "Python" 
12.  >>> some_dict[5] 
13.  "Python" 
15.  "Python" 消除了 "JavaScript" 的存在?

說明:

Python 字典通過檢查鍵值是否相等和比較雜湊值來確定兩個鍵是否相同。

具有相同值的不可變物件在Python中始終具有相同的雜湊值。

1.  >>> 5 == 5.0 
2.  True 
3.  >>> hash(5) == hash(5.0) 
4.  True

注意: 具有不同值的物件也可能具有相同的雜湊值(雜湊衝突)。

當執行 some_dict[5] = "Python" 語句時, 因為Python將 5 和 5.0 識別為 some_dict 的同一個鍵, 所以已有值 "JavaScript" 就被 "Python" 覆蓋了。

到處返回!

1.  def some_func(): 
2.  try: 
3.  return 'from_try' 
4.  finally: 
5.  return 'from_finally' 
7.  Output: 
9.  >>> some_func() 
11.  'from_finally'

說明:

當在 "try...finally" 語句的 try 中執行 return, break 或 continue 後, finally 子句依然會執行。

函式的返回值由最後執行的 return 語句決定。

由於 finally 子句一定會執行, 所以 finally 子句中的 return 將始終是最後執行的語句。

本質上,我們都一樣

1.  class WTF: 
2.  pass 
4.  Output: 
6.  >>> WTF() == WTF() # 兩個不同的物件應該不相等 
8.  False 
10.  >>> WTF() is WTF() # 也不相同 
12.  False 
14.  >>> hash(WTF()) == hash(WTF()) # 雜湊值也應該不同 
16.  True 
18.  >>> id(WTF()) == id(WTF()) 
20.  True

說明:

當呼叫 id 函式時, Python 建立了一個 WTF 類的物件並傳給 id 函式。

然後 id 函式獲取其id值 (也就是記憶體地址), 然後丟棄該物件. 該物件就被銷燬了。

當我們連續兩次進行這個操作時, Python會將相同的記憶體地址分配給第二個物件。 因為 (在CPython中) id 函式使用物件的記憶體地址作為物件的id值, 所以兩個物件的id值是相同的。

綜上, 物件的id值僅僅在物件的生命週期內唯一。在物件被銷燬之後, 或被建立之前, 其他物件可以具有相同的id值。

那為什麼 is 操作的結果為 False 呢? 讓我們看看這段程式碼:

1.  class WTF(object): 
2.  def __init__(self): print("I") 
3.  def __del__(self): print("D") 
5.  Output: 
7.  >>> WTF() is WTF() 
8.  I 
9.  I 
10.  D 
11.  D 
12.  False 
13.  >>> id(WTF()) == id(WTF()) 
14.  I 
15.  D 
16.  I 
17.  D 
18.  True

正如你所看到的, 物件銷燬的順序是造成所有不同之處的原因。

為什麼?

1.  some_string = "wtf" 
2.  some_dict = {} 
3.  for i, some_dict[i] in enumerate(some_string): 
4.  pass 
6.  Output: 
8.  >>> some_dict # 建立了索引字典. 
9.  {0: 'w', 1: 't', 2: 'f'}

說明:

Python 語法 中對 for 的定義是:

1.  for_stmt: 'for' exprlist 'in' testlist ':' suite ['else' ':' suite]

其中 exprlist 指分配目標. 這意味著對可迭代物件中的每一項都會執行類似 {exprlist} = {next_value} 的操作。

一個有趣的例子說明了這一點:

1.  for i in range(4): 
2.  print(i) 
3.  i = 10 
5.  Output: 
7.  0 
8.  1 
9.  2 
10.  3

你可曾覺得這個迴圈只會執行一次?

說明:

由於迴圈在Python中工作方式, 賦值語句 i = 10 並不會影響迭代迴圈, 在每次迭代開始之前, 迭代器(這裡指 range(4)) 生成的下一個元素就被解包並賦值給目標列表的變數(這裡指 i)了。

在每次迭代中, enumerate(some_string) 函式就生成一個新值 i (計數器增加) 並從 some_string 中獲取一個字元。

然後將字典 some_dict 鍵 i (剛剛分配的) 的值設為該字元。本例中迴圈的展開可以簡化為:

1.  >>> i, some_dict[i] = (0, 'w') 
2.  >>> i, some_dict[i] = (1, 't') 
3.  >>> i, some_dict[i] = (2, 'f') 
4.  >>> some_dict

執行時機差異

1.  array = [1, 8, 15] 
2.  g = (x for x in array if array.count(x) > 0) 
3.  array = [2, 8, 22] 
5.  Output: 
7.  >>> print(list(g)) 
8.  [8]
1.  array_1 = [1,2,3,4] 
2.  g1 = (x for x in array_1) 
3.  array_1 = [1,2,3,4,5] 
5.  array_2 = [1,2,3,4] 
6.  g2 = (x for x in array_2) 
7.  array_2[:] = [1,2,3,4,5] 
9.  Output: 
11.  >>> print(list(g1)) 
12.  [1,2,3,4] 
14.  >>> print(list(g2)) 
15.  [1,2,3,4,5]

說明:

在生成器表示式中, in 子句在宣告時執行, 而條件子句則是在執行時執行。

所以在執行前, array 已經被重新賦值為 [2, 8, 22], 因此對於之前的 1, 8 和 15, 只有 count(8) 的結果是大於 0 的, 所以生成器只會生成 8。

第二部分中 g1 和 g2 的輸出差異則是由於變數 array_1 和 array_2 被重新賦值的方式導致的。

在第一種情況下, array_1 被繫結到新物件 [1,2,3,4,5], 因為 in 子句是在宣告時被執行的,所以它仍然引用舊物件 1,2,3,4

在第二種情況下, 對 array_2 的切片賦值將相同的舊物件 [1,2,3,4] 原地更新為 [1,2,3,4,5]。

因此 g2 和 array_2 仍然引用同一個物件(這個物件現在已經更新為 [1,2,3,4,5])。

本文內容來自中文版專案,專案全文2萬多字,以及海量程式碼。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913713/viewspace-2648438/,如需轉載,請註明出處,否則將追究法律責任。

相關文章