從零學Python:第十四課-常用資料結構之集合

千鋒Python唐小強發表於2020-07-13

在學習了列表和元組之後,我們再來學習一種容器型的資料型別,它的名字叫集合(set)。說到集合這個詞大家一定不會陌生,在數學課本上就有這個概念。通常我們對集合的定義是“ 把一定範圍的、確定的、可以區別的事物當作一個整體來看待”,集合中的各個事物通常稱為集合的元素。集合應該滿足以下特性:

  1. 無序性:一個集合中,每個元素的地位都是相同的,元素之間是無序的。
  2. 互異性:一個集合中,任何兩個元素都認為是不相同的,即每個元素只能出現一次。
  3. 確定性:給定一個集合,任給一個元素,該元素或者屬於或者不屬於該集合,二者必居其一,不允許有模稜兩可的情況出現。

Python程式中的集合跟數學上的集合是完全一致的,需要強調的是上面所說的無序性和互異性。無序性說明集合中的元素並不像列中的元素那樣一個挨著一個,可以透過索引的方式實現隨機訪問(隨機訪問指的是給定一個有效的範圍,隨機抽取出一個數字,然後透過這個數字獲取到對應的元素),所以Python中的 集合肯定不能夠支援索引運算。另外,集合的互異性決定了集合中不能有重複元素,這一點也是集合區別於列表的關鍵,說得更直白一些就是,Python中的集合型別具有去重特性。當然,Python中的集合一定是支援in和not in成員運算的,這樣就可以確定一個元素是否屬於集合,也就是上面所說的集合的確定性。 集合的成員運算在效能上要優於列表的成員運算,這是集合的底層儲存特性決定的,此處我們暫時不做討論,先記下這個結論即可。

建立集合

在Python中,建立集合可以使用{}字面量語法,{}中需要至少有一個元素,因為沒有元素的{}並不是空集合而是一個空字典,我們下一節課就會大家介紹字典的知識。當然,也可以使用內建函式set來建立一個集合,準確的說set並不是一個函式,而是建立集合物件的構造器,這個知識點我們很快也會講到,現在不理解跳過它就可以了。要建立空集合可以使用set();也可以將其他序列轉換成集合,例如:set('hello')會得到一個包含了4個字元的集合(重複的l會被去掉)。除了這兩種方式,我們還可以使用生成式語法來建立集合,就像我們之前用生成式建立列表那樣。要知道集合中有多少個元素,還是使用內建函式len;使用for迴圈可以實現對集合元素的遍歷。

# 建立集合的字面量語法(重複元素不會出現在集合中)

set1 = { 1, 2, 3, 3, 3, 2}
print(set1)         # { 1, 2, 3}
print( len(set1))    # 3

# 建立集合的構造器語法(後面會講到什麼是構造器)
set2 = set( 'hello')
print(set2)         # { 'h', 'l', 'o', 'e'}
# 將列表轉換成集合(可以去掉列表中的重複元素)
set3 = set([ 1, 2, 3, 3, 2, 1])
print(set3)         # { 1, 2, 3}

# 建立集合的生成式語法(將列表生成式的[]換成{})
set4 = {num for num in range( 1, 20) if num % 3 == 0 or num % 5 == 0}
print(set4)         # { 3, 5, 6, 9, 10, 12, 15, 18}

# 集合元素的迴圈遍歷
for elem in set4:
    print(elem)

需要提醒大家,集合中的元素必須是hashable型別。所謂hashable型別指的是能夠計算出雜湊碼的資料型別,你可以暫時將雜湊碼理解為和變數對應的唯一的ID值。通常不可變型別都是hashable型別,如整數、浮點、字串、元組等,而可變型別都不是hashable型別,因為可變型別無法確定唯一的ID值,所以也就不能放到集合中。集合本身也是可變型別,所以集合不能夠作為集合中的元素,這一點請大家一定要注意。

集合的運算

Python為集合型別提供了非常豐富的運算子,主要包括:成員運算、交集運算、並集運算、差集運算、比較運算(相等性、子集、超集)等。

成員運算

可以透過成員運算in和not in檢查元素是否在集合中,程式碼如下所示。

set1 = {
11, 
12, 
13, 
14, 
15}

print( 10 in set1)        # False
print( 15 in set1)        # True
set2 = { 'Python', 'Java', 'Go', 'Swift'}
print( 'Ruby' in set2)    # False
print( 'Java' in set2)    # True

交併差運算

Python中的集合跟數學上的集合一樣,可以進行交集、並集、差集等運算,而且可以透過運算子和方法呼叫兩種方式來進行操作,程式碼如下所示。


set1 
= 
{1, 
2
, 
3
, 
4
, 
5
, 
6
, 
7
}

set2 = {2, 4 , 6 , 8 , 10 }

# 交集
# 方法一: 使用 & 運算子
print(set1 & set2)                 # {2, 4, 6}
# 方法二: 使用intersection方法
print(set1.intersection(set2))    # {2, 4, 6}

# 並集
# 方法一: 使用 | 運算子
print(set1 | set2)         # {1, 2, 3, 4, 5, 6, 7, 8, 10}
# 方法二: 使用union方法
print(set1.union(set2))    # {1, 2, 3, 4, 5, 6, 7, 8, 10}

# 差集
# 方法一: 使用 - 運算子
print(set1 - set2)              # {1, 3, 5, 7}
# 方法二: 使用difference方法
print(set1.difference(set2))    # {1, 3, 5, 7}

# 對稱差
# 方法一: 使用 ^ 運算子
print(set1 ^ set2)                        # {1, 3, 5, 7, 8, 10}
# 方法二: 使用symmetric_difference方法
print(set1.symmetric_difference(set2))    # {1, 3, 5, 7, 8, 10}
# 方法三: 對稱差相當於兩個集合的並集減去交集
print((set1 | set2) - (set1 & set2))      # {1, 3, 5, 7, 8, 10}

透過上面的程式碼可以看出,對兩個集合求交集,&運算子和intersection方法的作用是完全相同的,使用運算子的方式更直觀而且程式碼也比較簡短。相信大家對交集、並集、差集、對稱差這幾個概念是比較清楚的,如果沒什麼印象了可以看看下面的圖。

從零學Python:第十四課-常用資料結構之集合

集合的交集、並集、差集運算還可以跟賦值運算一起構成複合運算,如下所示。


set1 
= 
{1, 
3
, 
5
, 
7
}

set2 = {2, 4 , 6 }
# 將set1和set2求並集再賦值給set1
# 也可以透過set1.update(set2)來實現
set1 |= set2
print(set1)     # {1, 2, 3, 4, 5, 6, 7}
set3 = {3, 6, 9}
# 將set1和set3求交集再賦值給set1
# 也可以透過set1.intersection_update(set3)來實現
set1 &= set3
print(set1)    # {3, 6}

比較運算

兩個集合可以用==和!=進行相等性判斷,如果兩個集合中的元素完全相同,那麼==比較的結果就是True,否則就是False。如果集合A的任意一個元素都是集合B的元素,那麼集合A稱為集合B的子集,即對於∀a∈A,均有a∈B,則A⊆B。A是B的子集,反過來也可以稱B是A的超集。如果A是B的子集且A不等於B,那麼A就是B的真子集。Python為集合型別提供了判斷子集和超集的運算子,其實就是我們非常熟悉的<和>運算子,程式碼如下所示。


set1 
= 
{1, 
3
, 
5
}

set2 = {1, 2 , 3 , 4 , 5 }
set3 = set2
# <運算子表示真子集,<=運算子表示子集
print(set1 < set2, set1 <= set2)     # True True
print(set2 < set3, set2 <= set3)    # False True
# 透過issubset方法也能進行子集判斷
print(set1.issubset(set2))      # True

# 反過來可以用issuperset或>運算子進行超集判斷
print(set2.issuperset(set1))    # True
print(set2 > set1)              # True

集合的方法

Python中的集合是可變型別,我們可以透過集合型別的方法為集合新增或刪除元素。

# 建立一個空集合

set1 = set()
# 透過add方法新增元素
set1.add( 33)
set1.add( 55)
set1.update({ 1, 10, 100, 1000})
print(set1)    # { 33, 1, 100, 55, 1000, 10}

# 透過discard方法刪除指定元素
set1.discard( 100)
set1.discard( 99)
print(set1)    # { 1, 10, 33, 55, 1000}
# 透過 remove方法刪除指定元素,建議先做成員運算再刪除
# 否則元素如果不在集合中就會引發KeyError異常
if 10 in set1:
   set1. remove( 10)
print(set1)    # { 33, 1, 55, 1000}

# pop方法可以從集合中隨機刪除一個元素並返回該元素
print(set1.pop())

# clear方法可以清空整個集合
set1.clear()
print(set1)    # set()

如果要判斷兩個集合有沒有相同的元素可以使用isdisjoint方法,程式碼如下所示。


set1 = {
'Java', 
'Python', 
'Go', 
'Kotlin'}

set2 = { 'Kotlin', 'Swift', 'Java', 'Objective-C', 'Dart'}
set3 = { 'HTML', 'CSS', 'JavaScript'}
print(set1.isdisjoint(set2))     # False - set1和set2有相同元素
print(set1.isdisjoint(set3))    # True - set1和set3沒有相同元素

不可變集合

Python中還有一種不可變型別的集合,名字叫frozenset。set跟frozenset的區別就如同list跟tuple的區別,frozenset由於是不可變型別,能夠計算出雜湊碼,因此它可以作為set中的元素。除了不能新增和刪除元素,frozenset在其他方面跟set基本是一樣的,下面的程式碼簡單展示了frozenset的用法。

set1 = frozenset({
1, 
3, 
5, 
7})

set2 = frozenset( range( 1, 6))
print(set1 & set2)    # frozenset({ 1, 3, 5})
print(set1 | set2)    # frozenset({ 1, 2, 3, 4, 5, 7})
print(set1 - set2)    # frozenset({ 7})
print(set1 < set2)    # False

簡單的總結

Python中的集合底層使用了 雜湊儲存的方式,對於這一點我們暫時不做介紹,在後面的課程有需要的時候再為大家講解集合的底層原理,現階段大家只需要知道 集合是一種容器,元素必須是hashable型別,與列表不同的地方在於集合中的元素 沒有序不能用索引運算不能重複



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69923331/viewspace-2704176/,如需轉載,請註明出處,否則將追究法律責任。

相關文章