本文是我小專欄中 Python 簡單入門指北 一文的前半部分,如果你能堅持讀完並且覺得有一定收穫,建議閱讀原文,只需一杯咖啡錢就可以閱讀更精彩的部分,也可以訂閱小專欄或者加入我的知識星球,價格都是 66 元永久。
Python 是一門非常容易上手的語言,通過查閱資料和教程,也許一晚上就能寫出一個簡單的爬蟲。但 Python 也是一門很難精通的語言,因為簡潔的語法背後隱藏了許多黑科技。本文主要針對的讀者是:
- 毫無 Python 經驗的小白
- 有一些簡單 Python 經驗,但只會複製貼上程式碼,不知其所以然的讀者
- 覺得單獨一篇文章太瑣碎,質量沒保證,卻沒空讀完一本書,但又想對 Python 有全面瞭解的讀者
當然, 用一篇文章來講完某個語言是不可能的事情,我希望讀完本文的讀者可以:
- 對 Python 的整體知識結構形成初步的概念
- 瞭解 Python 特有的知識點,比如裝飾器、上下文、生成器等等,不僅會寫 Demo,還對背後的原理有一定了解
- 避免 C++/Java 等風格的 Python 程式碼,能夠寫出地道的 Python 程式碼
- 能夠熟練的使用 Python 編寫指令碼實現日常的簡單需求,能夠維護小型 Python 專案,能夠閱讀較複雜的 Python 原始碼
如果以上介紹符合你對自己的定位,在開始閱讀前,還需要明確幾點:
- 本文不會只介紹用法,那樣太膚淺
- 本文不會深入介紹某個知識點,比如分析原始碼等,那樣太囉嗦,我希望做一名引路人,描述各個知識點的概貌並略作引申,為讀者指出下一步的研究方向
- 程式碼註釋非常重要,一定要看,幾乎所有的程式碼段都可以執行,強烈建議手敲一遍!
0. 準備工作
請不要在學習 Python2 還是 Python3 之間猶豫了,除非你很明確自己只接觸 Python2,否則就從 Python3 學起,新版本的語言總是意味著進步的生產力(Swift 和 Xcode 除外)。Python 2 和 3 之間語法不相容,但這並不影響熟悉 Python3 的開發者迅速寫出 Python 2 的程式碼,反之亦然。所以與其在反覆糾結中浪費時間,不如立刻行動起來。
推薦使用 CodeRunner 來執行本文中的 demo,它比文字編輯器功能更強大,比如支援自動補全和斷點除錯,又比 PyCharm 輕量得多。
1. 資料結構
1.1 陣列
1.1.1 列表推導
如果要對陣列中的所有內容做一些修改,可以用 for 迴圈或者 map 函式:
array = [1, 2, 3, 4, 5, 6]
small = []
for n in array:
if n < 4:
small.append(n * 2)
print(small) # [2, 4, 6]複製程式碼
比較地道的 Python 寫法是使用列表推導:
array = [1, 2, 3, 4, 5, 6]
small = [n * 2 for n in array if n < 4]複製程式碼
for in
可以寫兩次,類似於巢狀的 for 迴圈,會得到一個笛卡爾積:
signs = ['+', '-']
numbers = [1, 2]
ascii = ['{sign}{number}'.format(sign=sign, number=number)
for sign in signs for number in numbers]
# 得到:['+1', '+2', '-1', '-2']複製程式碼
1.1.2 元組
元組可以簡單的理解為不可變的陣列,也就是沒有 append
、del
等方法,一旦建立,就無法新增或刪除元素,元素自身的值也不能改變,但元素內部的屬性是否可變並不受元組的影響,這一點符合其他語言中的常識。
t = (1, [])
t[0] = 3 # 丟擲錯誤 TypeError: 'tuple' object does not support item assignment
t[1].append(2) # 正常執行,現在的 t 是 (1, [2])複製程式碼
除了不可變性以外,有時候元組也會被當做不具名的資料結構,這時候元素的位置就不再是可有可無的了:
coordinate = (33.9425, -118.408056)
# coordinate 的第一個位置用來表示精度,第二個位置表示維度複製程式碼
在解析元組資料時,可以一一對應的寫上變數名:
t = (1, 2)
a, b = t # a = 1, b = 2複製程式碼
有時候變數名比較長, 但我只關心其中某一個,可以這樣寫:
t = (1, 2)
a, _ = t # a = 1複製程式碼
如果元組中元素特別多,即使挨個寫下劃線也比較累,可以用 * 來批量解包:
t = (1, 2, 3, 4, 5)
first, *middle, last = t
# first = 1
# middle = [2, 3, 4]
# last = 5複製程式碼
當然,如果元素數量較多,含義較複雜,我還是建議使用具名元組:
import collections
People = collections.namedtuple('People', ['name', 'age'])
p = People('bestswifter', '22')
p.name # 22複製程式碼
具名元組更像是一個不能定義方法的簡化版的類,能提供友好的資料展示。
元組的一個小技巧是可以避免用臨時變數來交換兩個數的值:
a = 1
b = 2
a, b = b, a
# a = 2, b = 1複製程式碼
1.1.3 陣列切片
切片的基本格式是 array[start:end:step]
,表示對 array 在 start 到 end 之前以 step 為間隔取切片。注意這裡的區間是 [start, end),也就是左閉右開。比如:
s = 'hello'
s[0:5:2]
# 表示取 s 的第 0、2、4 個字元,結果是 'hlo'複製程式碼
再舉幾個例子
s[0:5] # 不寫 step 預設就是 1,因此得到 'hello'
s[1:] # 不寫 end 預設到結尾,因此還是得到 'ello'
s[n:] # 獲取 s 的最後 len(s) - n 個元素
s[:2] # 不寫 start 預設從 0 開始,因此得到 'he'
s[:n] # 獲取 s 的前 n 個元素
s[:-1] # 負數表示倒過來數,因此這會刨除最後一個字元,得到 'hell'
s[-2:] # 同上,表示獲取最後兩個字元,得到 'lo'
s[::-1] # 獲取字串的倒序排列,相當於 reverse 函式複製程式碼
step 和它前面的冒號要麼同時寫,要麼同時不寫,但 start 和 end 之間的冒號不能省,否則就不是切片而是獲取元素了。再次強調 array[start:end]
表示的區間是 [a, b),也許你會覺得這很難記,但同樣的,這會得出以下美妙的公式:
array[:n] + array[n:] = array (0 <= n <= len(array))
用程式碼來表示就是:
s = 'hello'
s[:2] + s[2:] == s
# True,因為 s[:2] 是 'he',s[2:] 是 'llo'複製程式碼
切片不僅可以用來獲取陣列的一部分值,修改切片也可以直接修改陣列的對應部分,比如:
a = [1, 2, 3, 4, 5, 6]
a[1:3] = [22, 33, 44]
# a = [1, 22, 33, 44, 4, 5, 6]複製程式碼
並沒有人規定切片的新值必須和原來的長度一致:
a = [1, 2, 3, 4, 5, 6]
a[1:3] = [3]
# a = [1, 3, 4, 5, 6]
a[1:4] = []
# a = [1, 6],相當於刪除了中間的三個數字複製程式碼
但切片的新值必須也是可迭代的物件,比如這樣寫是不合法的:
a = [1, 2, 3, 4, 5, 6]
a[1:3] = 3
# TypeError: can only assign an iterable複製程式碼
1.1.4 迴圈與遍歷
一般來說,在 Python 中我們不會寫出 for (int i = 0; i < len(array); ++i)
這種風格的程式碼,而是使用 for in
這種語法:
for i in [1, 2, 3]:
print(i)複製程式碼
雖然大家都知道 for in
語法,但它的某些靈活用法或許就不是那麼眾所周知了。有時候,我們會在 if
語句中對某個變數的值做多次判斷,只要滿足一個條件即可:
name = 'bs'
if name == 'hello' or name == 'hi' or name == 'bs' or name == 'admin':
print('Valid')複製程式碼
這種情況推薦用 in
來代替:
name = 'bs'
if name in ('hello', 'hi', 'bs', 'admin'):
print('Valid')複製程式碼
有時候,如果我們想要把某件事重複固定的次數,用 for in
會顯得有些囉嗦,這時候可以藉助 range
型別:
for i in range(5):
print('Hi') # 列印五次 'Hi'複製程式碼
range
的語法和切片類似,比如我們需要訪問陣列所有奇數下標的元素,可以這麼寫:
a = [1, 2, 3, 4, 5]
for i in range(0, len(a), 2):
print(a[i])複製程式碼
在這種寫法中,我們不僅能獲得元素,還能知道元素的下標,這與使用 enumerate(iterable [, start ])
函式類似:
a = [1, 2, 3, 4, 5]
for i, n in enumerate(a):
print(i, n)複製程式碼
1.1.5 魔術方法
也許你已經注意到了,陣列和字串都支援切片,而且語法高度統一。這在某些強型別語言(比如我經常接觸的 Objective-C 和 Java)中是不可能的,事實上,Python 能夠支援這樣統一的語法,並非巧合,而是因為所有用中括號進行下標訪問的操作,其實都是呼叫這個類的 __getitem__
方法。
比如我們完全可以讓自己的類也支援通過下標訪問:
class Book:
def __init__(self):
self.chapters = [1, 2, 3]
def __getitem__(self, n):
return self.chapters[n]
b = Book()
print(b[1]) # 結果是 2複製程式碼
需要注意的是,這段程式碼幾乎不會出問題(除非陣列越界),這是因為我們直接把下標傳到了內部的 self.chapters
陣列上。但如果要自己處理下標,需要牢記它不一定是數字,也可以是切片,因此更完整的邏輯應該是:
def __getitem__(self, n):
if isinstance(n, int): # n是索引
# 處理索引
if isinstance(n, slice): # n是切片
# 通過 n.start,n.stop 和 n.step 來處理切片複製程式碼
與靜態語言不同的是,任何實現了 __getitem__
都支援通過下標訪問,而不用宣告為實現了某個協議,這種特性也被稱為 “鴨子型別”。鴨子型別並不要求某個類 是什麼,僅僅要求這個類 能做什麼。
順便說一句,實現了 __getitem__
方法的類都是可迭代的,比如:
b = Book()
for c in b:
print(c)複製程式碼
後續的章節還會介紹更多 Python 中的魔術方法,這種方法的名稱前後都有兩個下劃線,如果讀作 “下劃線-下劃線-getitem” 會比較拗口,因此可以讀作 “dunder-getitem” 或者 “雙下-getitem”,類似的,我想每個人都能猜到 __setitem__
的作用和用法。
1.2 字典
1.2.1 初始化字典
最簡單的建立一個字典的方式就是直接寫字面量:
{'a': 61, 'b': 62, 'c': 63, 'd': 64, 'e': 65}複製程式碼
字典字面量由大括號包住(注意區別於陣列的中括號),鍵值對之間由逗號分割,每個鍵值對內部用冒號分割鍵和值。
如果陣列的每個元素都是二元的元組,這個陣列可以直接轉成字典:
dict([('a', 61), ('b', 62), ('c', 63), ('d', 64), ('e', 65)])複製程式碼
就像陣列可以推導一樣,字典也可以推導:
a = [('a', 61), ('b', 62), ('c', 63), ('d', 64), ('e', 65)]
d = {letter: number for letter, number in a} # 這裡用到了元組拆包複製程式碼
只要記得外面還是大括號就行了。
兩個獨立的陣列可以被壓縮成一個字典:
numbers = [61, 62, 63, 64, 65]
letters = ['a', 'b', 'c', 'd', 'e']
dict(zip(letters, numbers))複製程式碼
正如 zip 的意思所表示的,超出長處的那部分陣列會被拋棄。
1.2.2 查詢字典
最簡單方法是直接寫鍵名,但如果鍵名不存在會丟擲 KeyError
:
d = {'a': 61}
d['a'] # 值是 61
d['b'] # KeyError: 'b'複製程式碼
可以用 if key in dict
的判斷來檢查鍵是否存在,甚至可以先 try
再 catch KeyError
,但更加優雅簡潔一些的寫法是用 get(k, default)
方法來提供預設值:
d = {'a': 61}
d.get('a', 62) # 得到 61
d.get('b', 62) # 得到 62複製程式碼
不過有時候,我們可能不僅僅要讀出預設屬性,更希望能把這個預設屬效能寫入到字典中,比如:
d = {}
# 我們想對字典中某個 Value 做操作,如果 Key 不存在,就先寫入一個空值
if 'list' not in d:
d['list'] = []
d['list'].append(1)複製程式碼
這種情況下,seddefault(key, default)
函式或許更合適:
d.setdefault('key', []).append(1)複製程式碼
這個函式雖然名為 set
,但作用其實是查詢,僅僅在查詢不到時才會把預設值寫入字典。
1.2.3 遍歷字典
直接遍歷字典實際上是遍歷了字典的鍵,因此也可以通過鍵獲取值:
d = {'a': 61, 'b': 62, 'c': 63, 'd': 64, 'e': 65}
for i in d:
print(i, d[i])
#b 62
#a 61
#e 65
#d 64
#c 63複製程式碼
我們也可以用字典的 keys()
或者 values()
方法顯式的獲取鍵和值。字典還有一個 items()
方法,它返回一個陣列,每個元素都是由鍵和值組成的二元元組:
d = {'a': 61, 'b': 62, 'c': 63, 'd': 64, 'e': 65}
for (k, v) in d.items():
print(k, v)
#e 65
#d 64
#a 61
#c 63
#b 62複製程式碼
可見 items()
方法和字典的構造方法互為逆操作,因為這個公式總是成立的:
dict(d.items()) == d
1.2.4 字典的魔術方法
在 1.1.4 節中介紹過,通過下標訪問最終都會由 __getitem__
這個魔術方法處理,因此字典的 d[key]
這種寫法也不例外, 如果鍵不存在,則會走到 __missing__
方法,再給一次挽救的機會。比如我們可以實現一個字典, 自動忽略鍵的大小寫:
class MyDict(dict):
def __missing__(self, key):
if key.islower():
raise KeyError(key)
else:
return self[key.lower()]
d = MyDict({'a': 61})
d['A'] # 返回 61
'A' in d # False複製程式碼
這個字典比較簡陋,比如 key 可能不是字串,不過我沒有處理太多情況,因為它主要是用來演示 __missing__
的用法,如果想要最後一行的 in
語法正確工作,需要重寫 __contains__
這個魔術方法,過程類似,就不贅述了。
雖然通過自定義的函式也能實現相似的效果,不過這個自定義字典對使用者更加透明,如果不在文件中說明,呼叫方很難察覺到字典的內部邏輯被修改了。 Python 有很多強大的功能,可以具備這種內部進行修改,但是對外保持透明的能力。這可能是我們第一次體會到,後續還會不斷的經歷。
1.2.5 集合
集合更像是不會有重複元素的陣列,但它的本質是以元素的雜湊值作為 Key,從而實現去重的邏輯。因此,集合也可以推導,不過得用字典的語法:
a = [1,2,3,4,5,4,3,2,1]
d = {i for i in a if i < 5}
# d = {1, 2, 3, 4},注意這裡的大括號複製程式碼
回憶一下,二進位制邏輯運算一共有三個運算子,按位或 |
,按位與 &
和異或 ^
,這三個運算子也可以用在集合之間,而且含義變化不大。比如:
a = {1, 2, 3}
b = {3, 4, 5}
c = a | b
# c = {1, 2, 3, 4, 5}複製程式碼
這裡的 |
運算表示交集,也就是 c 中的任意元素,要麼在 a,要麼在 b 集合中。類似的,按位與 &
運算求的就是交集:
a = {1, 2, 3}
b = {3, 4, 5}
c = a & b
# c = {3}複製程式碼
而異或則表示那些只在 a 不在 b 或者只在 b 不在 a 的元素。或者換個說法,表示那些在集合 a 和 b 中出現了且僅出現了一次的元素:
a = {1, 2, 3}
b = {3, 4, 5}
c = a ^ b
# c = {1, 2, 4, 5}複製程式碼
還有一個差集運算 -
,表示在集合 a 中但不在集合 b 中的元素:
a = {1, 2, 3}
b = {3, 4, 5}
c = a - b
# c = {1, 2}複製程式碼
回憶一下韋恩圖,就會得到以下公式(雖然並沒有什麼卵用):
A | B = (A ^ B) | (A & B)
A ^ B = (A - B) | (B - A)
1.3 字串
1.3.1 字串編碼
用 Python 寫過爬蟲的人都應該感受過被字串編碼支配的恐懼。簡單來說,編碼指的是將可讀的字串轉換成不太可讀的數字,用來儲存或者傳輸。解碼則指的是將數字還原成字串的過程。常見的編碼有 ASCII、GBK 等。
ASCII 編碼是一個相當小的字符集合,只有一百多個常用的字元,因此只用一個位元組(8 位)就能表示,為了儲存本國語言,各個國家都開發出了自己的編碼,比如中文的 GBK。這就帶來了一個問題,如果我想要在一篇文章中同時寫中文和日文,就無法實現了,除非能對每個字元指定編碼,這個成本高到無法接受。
Unicode 則是一個最全的編碼方式,每個 Unicode 字元佔據 6 個位元組,可以表示出 2 ^ 48 種字元。但隨之而來的是 Unicode 編碼後的內容不適合儲存和傳送,因此誕生了基於 Unicode 的再次編碼,目的是為了更高效的儲存。
更詳細的概念分析和配圖說明可以參考我的這篇文章:字串編碼入門科普,這裡我們主要聊聊 Python 對字串編碼的處理。
首先,編碼的函式是 encode
,它是字串的方法:
s = 'hello'
s.encode() # 得到 b'hello'
s.encode('utf16') # 得到 b'\xff\xfeh\x00e\x00l\x00l\x00o\x00'複製程式碼
encode
函式有兩個引數,第一個引數不寫表示使用預設的 utf8
編碼,理論上會輸出二進位制格式的編碼結果,但在終端列印時,被自動還原回字串了。如果用 utf16
進行編碼,則會看到編碼以後的二進位制結果。
前面說過,編碼是字元轉到二進位制的轉化過程,有時候在某個編碼規範中,並沒有指定某個字元是如何編碼的,也就是找不到對應的數字,這時候編碼就會報錯:
city = 'São Paulo'
b_city = city.encode('cp437')
# UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>複製程式碼
此時需要用到 encode
函式的第二個引數,用來指定遇到錯誤時的行為。它的值可以是 'ignore'
,表示忽略這個不能編碼的字元,也可以是 'replace'
,表示用預設字元代替:
b_city = city.encode('cp437', errors='ignore')
# b'So Paulo'
b_city = city.encode('cp437', errors='replace')
# b'S?o Paulo'複製程式碼
decode
完全是 encode
的逆操作,只有二進位制型別才有這個函式。它的兩個引數含義和 encode
函式完全一致,就不再介紹了。
從理論上來說,僅從編碼後的內容上來看,是無法確定編碼方式的,也無法解碼出原來的字元。但不同的編碼有各自的特點,雖然無法完全倒推,但可以從概率上來猜測,如果發現某個二進位制內容,有 99% 的可能性是 utf8
編碼生成的,我們就可以用 utf8
進行解碼。Python 提供了一個強大的工具包 Chardet
來完成這一任務:
octets = b'Montr\xe9al'
chardet.detect(octets)
# {'encoding': 'ISO-8859-1', 'confidence': 0.73, 'language': ''}
octets.decode('ISO-8859-1')
# Montréal複製程式碼
返回結果中包含了猜測的編碼方式,以及可信度。可信度越高,說明是這種編碼方式的可能性越大。
有時候,我們拿到的是二進位制的字串字面量,比如 68 65 6c 6c 6f
,前文說過只有二進位制型別才有 decode
函式,所以需要通過二進位制的字面量生成二進位制變數:
s = '68 65 6c 6c 6f'
b = bytearray.fromhex(s)
b.decode() # hello複製程式碼
1.3.2 字串的常用方法
字串的 split(sep, maxsplit)
方法可以以指定的分隔符進行分割,有點類似於 Shell 中的 awk -F ' '
',第一個 sep
參數列示分隔符,不填則為空格:
s = 'a b c d e'
a = s.split()
# a = ['a', 'b', 'c', 'd', 'e']複製程式碼
第二個引數 maxsplit
表示最多分割多少次,因此返回陣列的長度是 maxsplit + 1
。舉個例子說明下:
s = 'a;b;c;d;e'
a = s.split(';')
# a = ['a', 'b', 'c', 'd', 'e']
b = s.split(';', 2)
# b = ['a', 'b', 'c;d;e']複製程式碼
如果想批量替換,則可以用 replace(old, new[, count])
方法,由中括號括起來的參數列示選填。
old = 'a;b;c;d;e'
new = old.replace(';', ' ', 3)
# new = 'a b c d;e'複製程式碼
strip[chars]
用於移除指定的字元們:
old = "*****!!!Hello!!!*****"
new = old.strip('*') # 得到 '!!!Hello!!!'
new = old.strip('*!') # 得到 'Hello'複製程式碼
如果不傳引數,則預設移除空格。其實 strip
等價於分別執行 lstrip()
和 rstrip()
,即分別從左側和右側進行移除。比如 lstrip()
表示從左側第一個字元開始,移除空格,直到第一個非空格字元為止,所以字串中間的空格,無論是 lstrip
還是 strip()
都是無法移除的。
old = ' Hello world '
new = old.strip() # 得到 'Hello wrold'
new = old.lstrip() # 得到 'Hello world '複製程式碼
最後一個常用方法是 join
,其實這個可以理解為字串的構造方法,它可以把陣列轉換成字串:
array = 'a b c d e'.split() # 之前說過,結果是 ['a', 'b', 'c', 'd', 'e']
s = ';'.join(array) # 以分號為連線符,把陣列中的元素連線起來
# s = 'a;b;c;d;e'複製程式碼
所以 join
可以理解為 split
的逆操作,這個公式始終是成立的:
c.join(string.split(c)) = string
上面這些字串處理的函式,大多返回的還是字串,因此可以鏈式呼叫,避免使用臨時變數和多行程式碼,但也要避免過長(超過 3 個)的鏈式呼叫,以免影響可讀性。
1.3.3 字串格式化
最初級的字串格式化方法是使用 +
來拼接:
class Person:
def __init__(self):
self.name = 'bestswifter'
self.age = 22
self.sex = 'm'
p = Person()
print('Name: ' + p.name + ', Age: ' + str(p.age) + ', Sex: ' + p.sex)
# 輸出:Name: bestswifter, Age: 22, Sex: m複製程式碼
這裡必須要把 int
型別的年齡轉成字串以後才能進行拼接,這是因為 Python 是強型別語言,不支援型別的隱式轉換。
這種做法的缺點在於如果輸出結構比較複雜,極容易出現引號匹配錯誤的問題,可讀性非常低。
Python 2 中的做法是使用佔位符,類似於 C 語言中 printf
:
content = 'Name: %s, Age: %i, Sex: %c' % (p.name, p.age, p.sex)
print(content)複製程式碼
從結構上看,要比上一種寫法清楚得多, 但每個變數都需要指定型別,這和 Python 的簡潔不符。實際上每個物件都可以通過 str()
函式轉換成字串,這個函式的背後是 __str__
魔術方法。
Python 3 中的寫法是使用 format
函式,比如我們來實現一下 __str__
方法:
class Person:
def __init__(self):
self.name = 'bestswifter'
self.age = 22
self.sex = 'm'
def __str__(self):
return 'Name: {user.name}, Age: {user.age}, Sex: {user.sex}'.format(user=self)
p = Person()
print(p)
# 輸出:Name: bestswifter, Age: 22, Sex: m複製程式碼
除了把物件傳給 format
函式並在字串中展開以外, 也可以傳入多個引數,並且通過下標訪問他們:
print('{0}, {1}, {0}'.format(1, 2))
# 輸出:1, 2, 1,這裡的 {1} 表示第二個引數複製程式碼
1.3.4 HereDoc
Heredoc 不是 Python 特有的概念, 命令列和各種指令碼中都會見到,它表示一種所見即所得的文字。
假設我們在寫一個 HTML 的模板,絕大多數字符串都是常量,只有有限的幾個地方會用變數去替換,那這個字串該如何表示呢?一種寫法是直接用單引號去定義:
s = '<HTML><HEAD><TITLE>\nFriends CGI Demo</TITLE></HEAD>\n<BODY><H3>ERROR</H3>\n<B>%s</B><P>\n<FORM><INPUT TYPE=button VALUE=Back\nONCLICK=\'window.history.back()\'></FORM>\n</BODY></HTML>'複製程式碼
這段程式碼是自動生成的還好,如果是手動維護的,那麼可讀性就非常差,因為換行符和轉義後的引號增加了理解的難度。如果用 heredoc 來寫,就非常簡單了:
s = '''<HTML><HEAD><TITLE>
Friends CGI Demo</TITLE></HEAD>
<BODY><H3>ERROR</H3>
<B>%s</B><P>
<FORM><INPUT TYPE=button VALUE=Back
ONCLICK='window.history.back()'></FORM>
</BODY></HTML>
'''複製程式碼
Heredoc 主要是用來書寫大段的字串常量,比如 HTML 模板,SQL語句等等。
2 函式
2.1 函式是一等公民
一等公民指的是 Python 的函式能夠動態建立,能賦值給別的變數,能作為參傳給函式,也能作為函式的返回值。總而言之,函式和普通變數並沒有什麼區別。
函式是一等公民,這是函數語言程式設計的基礎,然而 Python 中基本上不會使用 lambda 表示式,因為在 lambda 表示式的中僅能使用單純的表示式,不能賦值,不能使用 while、try 等語句,因此 lambda 表示式要麼難以閱讀,要麼根本無法寫出。這極大的限制了 lambda 表示式的使用場景。
上文說過,函式和普通變數沒什麼區別,但普通變數並不是函式,因為這些變數無法呼叫。但如果某個類實現了 __call__
這個魔術方法,這個類的例項就都可以像函式一樣被呼叫:
class Person:
def __init__(self):
self.name = 'bestswifter'
self.age = 22
self.sex = 'm'
def __call__(self):
print(self)
def __str__(self):
return 'Name: {user.name}, Age: {user.age}, Sex: {user.sex}'.format(user=self)
p = Person()
p() # 等價於 print(p)複製程式碼
2.2 函式引數
2.2.1 函式傳參
對於熟悉 C 系列語言的人來說,函式傳參的方式一目瞭然。預設是拷貝傳值,如果傳指標是引用傳值。我們先來看一段簡單的 Python 程式碼:
def foo(arg):
arg = 5
print(arg)
a = 1
foo(a)
print(a)
# 輸出 5 和 1複製程式碼
這段程式碼的結果符合我們的預期,從這段程式碼來看,Python 也屬於拷貝傳值。但如果再看這段程式碼:
def foo(arg):
arg.append(1)
print(arg)
a = [1]
foo(a)
print(a) # 輸出兩個 [1, 1]複製程式碼
你會發現引數陣列在函式內部被改變了。就像是 C 語言中傳遞了變數的指標一樣。所以 Python 到底是拷貝傳值還是引用傳值呢?答案都是否定的!
Python 的傳值方式可以被理解為混合傳值。對於那些不可變的物件(比如 1.1.2 節中介紹過的元組,還有數字、字串型別),傳值方式是拷貝傳值;對於那些可變物件(比如陣列和字典)則是引用傳值。
2.2.2 預設引數
Python 的函式可以有預設值,這個功能很好用:
def foo(a, l=[]):
l.append(a)
return l
foo(2,[1]) # 給陣列 [1] 新增一個元素 2,得到 [1,2]
foo(2) # 沒有傳入陣列,使用預設的空陣列,得到 [2]複製程式碼
然而如果這樣呼叫:
foo(2) # 利用預設引數,得到 [2]
foo(3) # 竟然得到了 [2, 3]複製程式碼
函式呼叫了兩次以後,預設引數被改變了,也就是說函式呼叫產生了副作用。這是因為預設引數的儲存並不像函式裡的臨時變數一樣儲存在棧上、隨著函式呼叫結束而釋放,而是儲存在函式這個物件的內部:
foo.__defaults__ # 一開始確實是空陣列
foo(2) # 利用預設引數,得到 [2]
foo.__defaults__ # 如果列印出來看,已經變成 [2] 了
foo(3) # 再新增一個元素就得到了 [2, 3]複製程式碼
因為函式 foo
作為一個物件,不會被釋放,因此這個物件內部的屬性也不會隨著多次呼叫而自動重置,會一直保持上次發生的變化。基於這個前提,我們得出一個結論:函式的預設引數不允許是可變物件,比如這裡的 foo
函式需要這麼寫:
def foo(a, l=None):
if l is None:
l = []
l.append(a)
return l
print(foo(2)) # 得到 [2]
print(foo(3)) # 得到 [3]複製程式碼
現在,給引數新增預設值的行為在函式體中完成,不會隨著函式的多次呼叫而累積。
對於 Python 的預設引數來說:
如果預設值是不可變的,可以直接設定預設值,否則要設定為 None 並在函式體中設定預設值。
2.2.3 多引數傳遞
當引數個數不確定時,可以在引數名前加一個 *
:
def foo(*args):
print(args)
foo(1, 2, 3) # 輸出 [1, 2, 3]複製程式碼
如果直接把陣列作為引數傳入,它其實是單個引數,如果要把陣列中所有元素都作為單獨的引數傳入,則在陣列前面加上 *
:
a = [1, 2, 3]
foo(a) # 會輸出 ([1,2,3], ) 因為只傳了一個陣列作為引數
foo(*a) # 輸出 [1, 2, 3]複製程式碼
這裡的單個 *
只能接收非關鍵字引數,也就是僅有引數值的哪些引數。如果想接受關鍵字引數,需要用 **
來表示:
def foo(*args, **kwargs):
print(args)
print(kwargs)
foo(1,2,3, a=61, b=62)
# 第一行輸出:[1, 2, 3]
# 第二行輸出:{'a': 61, 'b': 62}複製程式碼
類似的,字典變數傳入函式只能作為單個引數,如果要想展開並被 **kwargs
識別,需要在字典前面加上兩個星號 **
:
a = [1, 2, 3]
d = {'a': 61, 'b': 62}
foo(*a, **d)複製程式碼
2.2.4 引數分類
Python 中函式的引數可以分為兩大類:
- 定位引數(Positional):表示引數的位置是固定的。比如對於函式
foo(a, b)
來說,foo(1, 2)
和foo(2, 1)
就是截然不同的,a 和 b 的位置是固定的,不可隨意調換。 - 關鍵詞引數(Keyword):表示引數的位置不重要,但是引數名稱很重要。比如
foo(a = 1, b = 2)
和foo(b = 2, a = 1)
的含義相同。
有一種引數叫做僅限關鍵字(Keyword-Only)引數,比如考慮這個函式:
def foo(*args, n=1, **kwargs):
print(n)複製程式碼
這個函式在呼叫時,如果引數 n 不指定名字,就會被前面的 *args
處理掉,如果指定的名字不是 n,又會被後面的 **kwargs
處理掉,所以引數 n 必須精確的以 (n = xxx)
的形式出現,也就是 Keyworld-Only。
2.3 函式內省
在 2.2.2 節中,我們檢視了函式變數的 __defaults__
屬性,其實這就是一種內省,也就是在執行時動態的檢視變數的資訊。
前文說過,函式也是物件,因此函式的變數個數,變數型別都應該有辦法獲取到,如果你需要開發一個框架,也許會對函式有各種奇葩的檢查和校驗。
以下面這個函式為例:
g = 1
def foo(m, *args, n, **kwargs):
a = 1
b = 2複製程式碼
首先可以獲取函式名,函式所在模組的全域性變數等:
foo.__globals__ # 全域性變數,包含了 g = 1
foo.__name__ # foo複製程式碼
我們還可以看到函式的引數,函式內部的區域性變數:
foo.__code__.co_varnames # ('m', 'n', 'args', 'kwargs', 'a', 'b')
foo.__code__.co_argcount # 只計算引數個數,不考慮可變引數,所以得到 2複製程式碼
或者用 inspect
模組來檢視更詳細的資訊:
import inspect
sig = inspect.signature(foo) # 獲取函式簽名
sig.parameters['m'].kind # POSITIONAL_OR_KEYWORD 表示可以是定位引數或關鍵字引數
sig.parameters['args'].kind # VAR_POSITIONAL 定位引數構成的陣列
sig.parameters['n'].kind # KEYWORD_ONLY 僅限關鍵字引數
sig.parameters['kwargs'].kind # VAR_KEYWORD 關鍵字引數構成的字典
inspect.getfullargspec(foo)
# 得到:ArgSpec(args=['m', 'n'], varargs='args', keywords='kwargs', defaults=None)複製程式碼
本節的新 API 比較多,但並不要求記住這些 API 的用法。再次強調,本文的寫作目的是為了建立讀者對 Python 的總體認知,瞭解 Python 能做什麼,至於怎麼做,那是文件該做的事。
2.4 裝飾器
2.4.1 設計模式的消亡
經典的設計模式有 23 個,雖然設計模式都是常用程式碼的總結,理論上來說與語法無關。但不得不承認的是,標準的設計模式在不同的語言中,有的因為語法的限制根本無法輕易實現(比如在 C 語言中實現組合模式),有的則因為語言的特定功能,變得冗餘囉嗦。
以策略模式為例,有一個抽象的策略類,定義了策略的介面,然後使用者選擇一個具體的策略類,構造他們的例項並且呼叫策略方法。具體程式碼可以參考:策略模式在百度百科的定義。
然而這些物件本身並沒有作用,它們僅僅是可以呼叫相同的方法而已,只不過在 Java 中,所有的任務都需要由物件來完成。即使策略本身就是一個函式,但也必須把它包裹在一個策略物件中。所以在 Python 中更優雅寫法是直接把策略函式作為變數使用。不過這就引入一個問題,如何判斷某個函式是個策略呢,畢竟在物件導向的寫法中,只要檢查它的父類是否是抽象的策略類即可。
也許你已經見過類似的寫法:
strategy
def strategyA(n):
print(n * 2)複製程式碼
下面就開始介紹裝飾器。
2.4.2 裝飾器的基本原理
首先,裝飾器是個函式,它的引數是被裝飾的函式,返回值也是一個函式:
def decorate(origin_func): # 這個引數是被裝飾的函式
print(1) # 先輸出點東西
return origin_func # 把原函式直接返回
@decorate # 注意這裡不是函式呼叫,所以不用加括號,也不用加被修飾的函式名
def sayHello():
print('Hello')
sayHello() # 如果沒有裝飾器,只會列印 'Hello',實際結果是列印 1 再列印 'Hello'複製程式碼
因此,使用裝飾器的這種寫法:
@decorate
def foo():
pass複製程式碼
和下面這種寫法是完全等價的, 初學者可以把裝飾器在心中默默的轉換成下一種寫法,以方便理解:
def foo():
pass
foo = decorate(foo)複製程式碼
需要注意的是,裝飾器函式 decorate
在模組被匯入時就會執行,而被裝飾的函式只在被呼叫時才會執行,也就是說即使不呼叫 sayHello
函式也會輸出 1,但這樣就不會輸出 Hello 了。
有了裝飾器,配合前面介紹的函式物件,函式內省,我們可以做很多有意思的事,至少判斷上一節中某個函式是否是策略是非常容易的。在裝飾器中,我們還可以把策略函式都儲存到陣列中, 然後提供一個“推薦最佳策略”的功能, 其實就是遍歷執行所有的策略,然後選擇最好的結果。
2.4.3 裝飾器進階
上一節中的裝飾器主要是為了介紹工作原理,它的功能非常簡單,並不會改變被裝飾函式的執行結果,僅僅是在匯入時裝飾函式,然後輸出一些內容。換句話說,即使不執行函式,也要執行裝飾器中的 print
語句,而且因為直接返回函式的緣故,其實沒有真正的起到裝飾的效果。
如何做到裝飾時不輸出任何內容,僅在函式執行最初輸出一些東西呢?這是常見的 AOP(面向切片程式設計) 的需求。這就要求我們不能再直接返回被裝飾的函式,而是應該返回一個新的函式,所以新的裝飾器需要這麼寫:
def decorate(origin_func):
def new_func():
print(1)
origin_func()
return new_func
@decorate
def sayHello():
print('Hello')
sayHello() # 執行結果不變,但是僅在呼叫函式 sayHello 時才會輸出 1複製程式碼
這個例子的工作原理是,sayHello
函式作為引數 origin_func
被傳到裝飾器中,經過裝飾以後,它實際上變成了 new_func
,會先輸出 1 再執行原來的函式,也就是 sayHello
。
這個例子很簡陋,因為我們知道了 sayHello
函式沒有引數,所以才能定義一個同樣沒有引數的替代者:nwe_func
。如果我們在開發一個框架,要求裝飾器能對任意函式生效,就需要用到 2.2.3 中介紹的 *
和 **
這種不定引數語法了。
如果檢視 sayHello
函式的名字,得到的結果將是 new_func
:
sayHello.__name__ # new_func複製程式碼
這是很自然的,因為本質上其實執行的是:
new_func = decorate(sayHello)複製程式碼
而裝飾器的返回結果是另一個函式 new_func
,兩者僅僅是執行結果類似,但兩個物件並沒有什麼關聯。
所以為了處理不定引數,並且不改變被裝飾函式的外觀(比如函式名),我們需要做一些細微的修補工作。這些工作都是模板程式碼,所以 Python 早就提供了封裝:
import functools
def decorate(origin_func):
@functools.wraps(origin_func) # 這是 Python 內建的裝飾器
def new_func(*args, **kwargs):
print(1)
origin_func(*args, **kwargs)
return new_func複製程式碼
2.4.4 裝飾器工廠
在 2.4.2 節的程式碼註釋中我解釋過,裝飾器後面不要加括號,被裝飾的函式自動作為引數,傳遞到裝飾器函式中。如果加了括號和引數,就變成手動呼叫裝飾器函式了,大多數時候這與預期不符(因為裝飾器的引數一般都是被裝飾的函式)。
不過裝飾器可以接受自定義的引數,然後返回另一個裝飾器,這樣外面的裝飾器實際上就是一個裝飾器工廠,可以根據使用者的引數,生成不同的裝飾器。還是以上面的裝飾器為例,我希望輸出的內容不是固定的 1,而是使用者可以指定的,程式碼就應該這麼寫:
import functools
def decorate(content): # 這其實是一個裝飾器工廠
def real_decorator(origin_func): # 這才是剛剛的裝飾器
@functools.wraps(origin_func)
def new_func():
print('You said ' + str(content)) # 現在輸出內容可以由使用者指定
origin_func()
return new_func # 在裝飾器裡,返回的是新的函式
return real_decorator # 裝飾器工廠返回的是裝飾器複製程式碼
裝飾器工廠和裝飾器的區別在於它可以接受引數,返回一個裝飾器:
@decorate(2017)
def sayHello():
print('Hello')
sayHello()複製程式碼
其實等價於:
real_decorator = decorate(2017) # 通過裝飾器工廠生成裝飾器
new_func = real_decorator(sayHello) # 正常的裝飾器工作邏輯
new_func() # 呼叫的是裝飾過的函式複製程式碼
3 物件導向
3.1 物件記憶體管理
3.1.1 物件不是盒子
C 語言中我們定義變數用到的語法是:
int a = 1;複製程式碼
這背後的含義是定義了一個 int
型別的變數 a
,相當於申請了一個名為 a
的盒子(儲存空間),裡面裝了數字 1。
然後我們改變 a
的值:a = 2;
,可以列印 a
的地址來證明它並沒有發生變化。所以只是盒子裡裝的內容(指標指向的位置)發生了改變:
但是在 Python 中,變數不是盒子。比如同樣的定義變數:
a = 1複製程式碼
這裡就不能把 a
理解為 int
型別的變數了。因為在 Python 中,變數沒有型別,值才有,或者說只有物件才有型別。因為即使是數字 1,也是 int
類的例項,而變數 a
更像是給這個物件貼的一個標籤。
如果執行賦值語句 a = 2
,相當於把標籤 a 貼在另一個物件上:
基於這個認知,我們現在應該更容易理解 2.2.1 節中所說的函式傳參規則了。如果傳入的是不可變型別,比如 int
,改變它的值實際上就是把標籤掛在新的物件上,自然不會改變原來的引數。如果是可變型別,並且做了修改,那麼函式中的變數和外面的變數都是指向同一個物件的標籤,所以會共享變化。
3.1.2 預設淺複製
根據上一節的描述,直接把變數賦值給另一個變數, 還算不上覆制:
a = [1, 2, 3]
b = a
b == a # True,等同性校驗,會呼叫 __eq__ 函式,這裡只判斷內容是否相等
b is a # True,一致性校驗,會檢查是否是同一個物件,呼叫 hash() 函式,可以理解為比較指標複製程式碼
可見不僅僅陣列相同,就連變數也是相同的,可以把 b 理解為 a 的別名。
如果用切片,或者陣列的建構函式來建立新的陣列,得到的是原陣列的淺拷貝:
a = [1, 2, 3]
b = list(a)
b == a # True,因為陣列內容相同
b is a # False,現在 a 和 b 是兩個變數,恰好指向同一個陣列物件複製程式碼
但如果陣列中的元素是可變的,可以看到這些元素並沒有被完全拷貝:
a = [[1], [2], [3]]
b = list(a)
b[0].append(2)
a # 得到 [[1, 2], [2], [3]],因為 a[0] 和 b[0] 其實還是掛在相同物件上的不同標籤複製程式碼
如果想要深拷貝,需要使用 copy
模組的 deepcopy
函式:
import copy
b = copy.deepcopy(a)
b[0].append(2)
a # 變成了 [[1, 2], [2], [3]]
a # 還是 [[1], [2], [3]]複製程式碼
此時,不僅僅是每個元素的引用被拷貝,就連每個元素自己也被拷貝。所以現在的 a[0]
和 b[0]
是指向兩個不同物件的兩個不同變數(標籤),自然就互不干擾了。
如果要實現自定義物件的深複製,只要實現 __deepcopy__
函式即可。這個概念在幾乎所有物件導向的語言中都會存在,就不詳細介紹了。
3.1.3 弱引用
Python 記憶體管理使用垃圾回收的方式,當沒有指向物件的引用時,物件就會被回收。然而物件一直被持有也並非什麼好事,比如我們要實現一個快取,預期目標是快取中的內容隨著真正物件的存在而存在,隨著真正物件的消失而消失。如果因為快取的存在,導致被快取的物件無法釋放,就會導致記憶體洩漏。
Python 提供了語言級別的支援,我們可以使用 weakref
模組,它提供了 weakref.WeakValueDictionary
這個弱引用字典來確保字典中的值不會被引用。如果想要獲取某個物件的弱引用,可以使用 weakref.ref(obj)
函式。
3.2 Python 風格的物件
3.2.1 靜態函式與類方法
靜態函式其實和類的方法沒什麼關係,它只是恰好定義在類的內部而已,所以這裡我用函式(function) 來形容它。它可以沒有引數:
class Person:
@staticmethod # 用 staticmethod 這個修飾器來表明函式是靜態的
def sayHello():
print('Hello')
Person.sayHello() # 輸出 'Hello`複製程式碼
靜態函式的呼叫方式是類名加上函式名。類方法的呼叫方式也是這樣,唯一的不同是需要用 @staticmethod
修飾器,而且方法的第一個引數必須是類:
class Person:
@classmethod # 用 classmethod 這個修飾器來表明這是一個類方法
def sayHi(cls):
print('Hi: ' + cls.__name__)
Person.sayHi() # 輸出 'Hi: Person`複製程式碼
類方法和靜態函式的呼叫方法一致,在定義時除了修飾器不一樣,唯一的區別就是類方法需要多宣告一個引數。這樣看起來比較麻煩,但靜態函式無法引用到類物件,自然就無法訪問類的任何屬性。
於是問題來了,靜態函式有何意義呢?有的人說類名可以提供名稱空間的概念,但在我看來這種解釋並不成立,因為每個 Python 檔案都可以作為模組被別的模組引用,把靜態函式從類裡抽取出來,定義成全域性函式,也是有名稱空間的:
# 在 module1.py 檔案中:
def global():
pass
class Util:
@staticmethod
def helper():
pass
# 在 module2.py 檔案中:
import module1
module1.global() # 呼叫全域性函式
module1.Util.helper() # 呼叫靜態函式複製程式碼
從這個角度看,定義在類中的靜態函式不僅不具備名稱空間的優點,甚至呼叫語法還更加囉嗦。對此,我的理解是:靜態函式可以被繼承、重寫,但全域性函式不行,由於 Python 中的函式是一等公民,因此很多時候用函式替代類都會使程式碼更加簡潔,但缺點就是無法繼承,後面還會有更多這樣的例子。
3.2.2 屬性 attribute
Python (等多數動態語言)中的類並不像 C/OC/Java 這些靜態語言一樣,需要預先定義屬性。我們可以直接在初始化函式中建立屬性:
class Person:
def __init__(self, name):
self.name = name
bs = Person('bestswifter')
bs.name # 值是 'bestswifter'複製程式碼
由於 __init__
函式是執行時呼叫的,所以我們可以直接給物件新增屬性:
bs.age = 22
bs.age # 因為剛剛賦值了,所以現在取到的值是 22複製程式碼
如果訪問一個不存在的屬性,將會丟擲異常。從以上特性來看,物件其實和字典非常相似,但這種過於靈活的特性其實蘊含了潛在的風險。比如某個封裝好的父類中定義了許多屬性, 但是子類的使用者並不一定清楚這一點,他們很可能會不小心就重寫了父類的屬性。一種隱藏並保護屬性的方式是在屬性前面加上兩個下劃線:
class Person:
def __init__(self):
self.__name = 'bestswifter'
bs = Person()
bs.__name # 這樣是無法獲取屬性的
bs._Person__name # 這樣還是可以讀取屬性複製程式碼
這是因為 Python 會自動處理以雙下劃線開頭的屬性,把他們重名為 _Classname__attrname
的格式。由於 Python 物件的所有屬性都儲存在例項的 __dict__
屬性中,我們可以驗證一下:
bs = Person()
bs.__dict__
# 得到 {'_Person__name': 'bestswifter'}複製程式碼
但很多人並不認可通過名稱改寫(name mangling) 的方式來儲存私有屬性,原因很簡單,只要知道改寫規則,依然很容易的就能讀寫私有屬性。與其自欺欺人,不如採用更簡單,更通用的方法,比如給私有屬性前面加上單個下劃線 _
。
注意,以單個下劃線開頭的屬性不會觸發任何操作,完全靠自覺與共識。任何稍有追求的 Python 程式設計師,都不應該讀寫這些屬性。
3.2.3 特性 property
使用過別的面嚮物件語言的讀者應該都清楚屬性的 getter
和 setter
函式的重要性。它們封裝了屬性的讀寫操作,可以新增一些額外的邏輯,比如校驗新值,返回屬性前做一些修飾等等。最簡陋的 getter
和 setter
就是兩個普通函式:
class Person:
def get_name(self):
return self.name.upper()
def set_name(self, new_name):
if isinstance(new_name, str):
self.name = new_name.lower()
def __init__(self, name):
self.name = name
bs = Person('bestswifter')
bs.get_name() # 得到大寫的名字: 'BESTSWIFTER'
bs.set_name(1) # 由於新的名字不是字串,所以無法賦值
bs.get_name() # 還是老的名字: 'BESTSWIFTER'複製程式碼
工作雖然完成了,但方法並不高明。在 1.2.3 節中我們就見識到了 Python 的一個特點:“內部高度封裝,完全對外透明”。這裡手動呼叫 getter
和 setter
方法顯得有些愚蠢、囉嗦,比如對比下面的兩種寫法,在變數名和函式名很長的情況下,差距會更大:
bs.name += '1995'
bs.set_name(bs.get_name() + '1995')複製程式碼
Python 提供了 @property
關鍵字來裝飾 getter
和 setter
方法,這樣的好處是可以直接使用點語法,瞭解 Objective-C 的讀者對這一特性一定倍感親切:
class Person:
@property # 定義 getter
def name(self): # 函式名就是點語法訪問的屬性名
return self._name.upper() # 現在真正的屬性是 _name 了
@name.setter # 定義 setter
def name(self, new_name): # 函式名不變
if isinstance(new_name, str):
self._name = new_name.lower() # 把值存到私有屬性 _name 裡
def __init__(self, name):
self.name = name
bs = Person('bestswifter')
bs.name # 其實呼叫了 name 函式,得到大寫的名字: 'BESTSWIFTER'
bs.name = 1 # 其實呼叫了 name 函式,因為型別不符,無法賦值
bs.name # 還是老的名字: 'BESTSWIFTER'複製程式碼
我們已經在 2.4 節詳細學習了裝飾器,應該能意識到這裡的 @property
和 @xxx.setter
都是裝飾器。因此上述寫法實際上等價於:
class Person:
def get_name(self):
return self._name.upper()
def set_name(self, new_name):
if isinstance(new_name, str):
self._name = new_name.lower()
# 以上是老舊的 getter 和 setter 定義
# 如果不用 @property,可以定義一個 property 類的例項
name = property(get_name, set_name)複製程式碼
可見,特性的本質是給類建立了一個類屬性,它是 property
類的例項,構造方法中需要把 getter
、setter
等函式傳入,我們可以列印一下類的 name
屬性來證明:
Person.name # <property object at 0x107c99868>複製程式碼
理解特性的工作原理至關重要。以這裡的 name
特性為例,我們訪問了物件的 name
屬性,但是它並不存在,所以會嘗試訪問類的 name
屬性,這個屬性是 property
類的例項,會對讀寫操作做特殊處理。這也意味著,如果我們重寫了類的 name
屬性,那麼物件的讀寫方法就不會生效了:
bs = Person()
Person.name = 'hello'
bs.name # 例項並沒有 name 屬性,因此會訪問到類的屬性 name,現在的值是 'hello` 了複製程式碼
如果訪問不存在的屬性,預設會丟擲異常,但如果實現了 __getattr__
函式,還有一次挽救的機會:
class Person:
def __getattr__(self, attr):
return 0
def __init__(self, name):
self.name = name
bs = Person('bestswifter')
bs.name # 直接訪問屬性
bs.age # 得到 0,這是 __getattr__ 方法提供的預設值
bs.age = 1 # 動態給屬性賦值
bs.age # 得到 1,注意!!!這時候就不會再呼叫 __getattr__ 方法了複製程式碼
由於 __getattr__
只是兜底策略,處理一些異常情況,並非每次都能被呼叫,所以不能把重要的業務邏輯寫在這個方法中。
3.2.4 特性工廠
在上一節中,我們利用特性來封裝 getter
和 setter
,對外暴露統一的讀寫介面。但有些 getter
和 setter
的邏輯其實是可以複用的,比如商品的價格和剩餘數量在賦值時,都必須是大於 0 的數字。這時候如果每次都要寫一遍 setter
,程式碼就顯得很冗餘,所以我們需要一個能批量生產特性的函式。由於我們已經知道了特性是 property
類的例項,而且是類的屬性,所以程式碼可以這樣寫:
def quantity(storage_name): # 定義 getter 和 setter
def qty_getter(instance):
return instance.__dict__[storage_name]
def qty_setter(instance, value):
if value > 0:
# 把值儲存在例項的 __dict__ 字典中
instance.__dict__[storage_name] = value
else:
raise ValueError('value must be > 0')
return property(qty_getter, qty_setter) # 返回 property 的例項複製程式碼
有了這個特性工廠,我們可以這樣來定義特性:
class Item:
price = quantity('price')
number = quantity('number')
def __init__(self):
pass
i = Item()
i.price = -1
# Traceback (most recent call last):
# ...
# ValueError: value must be > 0複製程式碼
作為追求簡潔的程式設計師,我們不禁會問,在 price = quantity('price')
這行程式碼中,屬性名重複了兩次,能不能在 quantity
函式中自動讀取左邊的屬性名呢,這樣程式碼就可以簡化成 price = quantity()
了。
答案顯然是否定的,因為右邊的函式先被呼叫,然後才能把結果賦值給左邊的變數。不過我們可以採用迂迴策略,變相的實現上面的需求:
def quantity():
try:
quantity.count += 1
except AttributeError:
quantity.count = 0
storage_name = '_{}:{}'.format('quantity', quantity.count)
def qty_getter(instance):
return instance.__dict__[storage_name]
def qty_setter(instance, value):
if value > 0:
instance.__dict__[storage_name] = value
else:
raise ValueError('value must be > 0')
return property(qty_getter, qty_setter)複製程式碼
這段程式碼中我們利用了兩個技巧。首先函式是一等公民, 所以函式也是物件,自然就有屬性。所以我們利用 try ... except
很容易的就給函式工廠新增了一個計數器物件 count
,它每次呼叫都會增加,然後再拼接成儲存時用的鍵 storage_name
,並且可以保證不同 property
例項的儲存鍵名各不相同。
其次,storage_name
在 getter
和 setter
函式中都被引用到,而這兩個函式又被 property
的例項引用,所以 storage_name
會因為被持有而延長生命週期。這也正是閉包的一大特性:能夠捕獲自由變數並延長它的生命週期和作用域。
我們來驗證一下:
class Item:
price = quantity()
number = quantity()
def __init__(self):
pass
i = Item()
i.price = 1
i.number = 2
i.price # 得到 1,可以正常訪問
i.number # 得到 2,可以正常訪問
i.__dict__ # {'_quantity:0': 1, '_quantity:1': 2}複製程式碼
可見現在儲存的鍵名可以被正確地自動生成。
3.2.5 屬性描述符
檔案描述符的作用和特性工廠一樣,都是為了批量的應用特性。它的寫法也和特性工廠非常類似:
class Quantity:
def __init__(self, storage_name):
self.storage = storage_name
def __get__(self, instance, owner):
return instance.__dict__[self.storage]
def __set__(self, instance, value):
if value > 0:
instance.__dict__[self.storage] = value
else:
raise ValueError('value must be > 0')複製程式碼
主要有以下幾個改動:
- 不用返回
property
類的例項了,因此getter
和setter
方法的名字是固定的,這樣才能滿足協議。 __get__
方法的第一個引數是描述符類Quantity
的例項,第二個引數self
是要讀取屬性的例項,比如上面的i
,也被稱作託管例項。第三個引數是託管類,也就是Item
。__set__
方法的前兩個引數含義類似,第三個則是要讀取的屬性名,比如price
。
和特性工廠類似,屬性描述符也可以實現 storage_name
的自動生成,這裡就不重複程式碼了。看起來屬性描述符和特性工廠幾乎一樣,但由於屬性描述符是類,它就可以繼承。比如這裡的 Quantity
描述符有兩個功能:自動儲存和值的校驗。自動儲存是一個非常通用的邏輯,而值的校驗是可變的業務邏輯,所以我們可以先定義一個 AutoStorage
描述符來實現自動儲存功能,然後留下一個空的 validate
函式交給子類去重寫。
而特性工廠作為函式,自然就沒有上述功能,這兩者的區別類似於 3.2.1 節中介紹的靜態函式與全域性函式的區別。
3.2.6 例項屬性的查詢順序
我們知道類的屬性都會儲存在 __dict__
字典中,即使沒有顯式的給屬性賦值,但只要字典裡面有這個欄位,也是可以讀取到的:
class Person:
pass
p = Person()
p.__dict__['name'] = 'bestswifter'
p.name # 不會報錯,而是返回字典中的值,'bestswifter'複製程式碼
但我們在特性工廠和屬性描述符的實現中,都是直接把屬性的值儲存在 __dict__
中,而且鍵就是屬性名。之前我們還介紹過,特性的工作原理是沒有直接訪問例項的屬性,而是讀取了 property
的例項。那直接把值存在 __dict__
中,會不會導致特性失效,直接訪問到原始內容呢?從之前的實踐結果來看,答案是否定的,要解釋這個問題,我們需要搞明白訪問例項屬性的查詢順序。
假設有這麼一段程式碼:
o = cls() # 假設 o 是 cls 類的例項
o.attr # 試圖訪問 o 的屬性 attr複製程式碼
再對上一節中的屬性描述符做一個簡單的分類:
- 覆蓋型描述符:定義了
__set__
方法的描述符 - 非覆蓋型描述符:沒有定義
__set__
方法的描述符
在執行 o.attr
時,查詢順序如下:
- 如果
attr
出現在cls
或父類的__dict__
中,且attr
是覆蓋型描述符,那麼呼叫__get__
方法。 - 否則,如果
attr
出現在o
的__dict__
中,返回o.__dict__[attr]
- 否則,如果
attr
出現在cls
或父類的__dict__
中,如果attr
是非覆蓋型描述符,那麼呼叫__get__
方法。 - 否則,如果沒有非覆蓋型描述符,直接返回
cls.__dict__[attr]
- 否則,如果
cls
實現了__getattr__
方法,呼叫這個方法 - 丟擲
AttributeError
所以,在訪問類的屬性時,覆蓋型描述符的優先順序是高於直接儲存在 __dict__
中的值的。
3.3 多繼承
本節內容部分摘自我的這篇文章:從 Swift 的面向協議程式設計說開去,本節聊的是多繼承在 Python 中的知識,如果想閱讀關於多繼承的討論,請參考原文。
3.3.1 多繼承的必要性
很多語言類的書籍都會介紹,多繼承是個危險的行為。誠然,狹義上的多繼承在絕大多數情況下都是不合理的。這裡所謂的 “狹義”,指的是一個類擁有多個父類。我們要明確一個概念:繼承的目的不是程式碼複用,而是宣告一種 is a
的關係,程式碼複用只是 is a
關係的一種外在表現。
因此,如果你需要狹義上的多繼承,還是應該先問問自己,真的存在這麼多 is a
的關係麼?你是需要宣告這種關係,還是為了程式碼複用。如果是後者,有很多更優雅的解決方案,因為多繼承的一個直接問題就是菱形問題(Diamond Problem)。
但是廣義上的多繼承是必須的,不能因為害怕多繼承的問題就忽略多繼承的優點。廣義多繼承 指的是通過定義介面(Interface)以及介面方法的預設實現,形成“一個父類,多個介面”的模式,最終實現程式碼的複用。當然,不是每個語言都有介面的概念,比如 Python 裡面叫 Mixin,會在 3.3.3 節中介紹。
廣義上的多繼承非常常見,有一些教科書式的例子,比如動物可以按照哺乳動物,爬行動物等分類,也可以按照有沒有翅膀來分類。某一個具體的動物可能滿足上述好幾類。在實際的開發中也到處都是廣義多繼承的使用場景,比如 iOS 或者安卓開發中,系統控制元件的父類都是固定的,如果想讓他們複用別的父類的程式碼,就會比較麻煩。
如果您已讀到這裡並且感覺還不錯,可以在我的小專欄閱讀原文,僅需一杯咖啡的錢。你也可以訂閱小專欄或者加入我的知識星球,價格都是 66 元永久。