前言
集合是一種組合型的資料型別,分為可變的set和不可變的frozenset。
軟體環境
- 系統
- UbuntuKylin 14.04
- 軟體
- Python 2.7.3
- IPython 4.0.0
可變集合Set
集合set是一種無序的、唯一的的元素集,與數學中集合的概念類似,可對其進行交、並、差、補等邏輯運算。不支援索引、切片等序列操作,但仍支援成員關係運算子in-not in、推導式等操作。在特定的場合中可以體現出非常優秀的執行效率。
set()函式建立集合
set(iterable) -> new set object
其中iterable可以是List、Tuple、Dictionary。但是為dict時,只會獲取提Key作為set的元素。
1 2 3 4 5 6 7 8 9 10 11 12 |
In [12]: s = set([1,2,3]) In [13]: s Out[13]: {1, 2, 3} In [14]: type(s) Out[14]: set In [141]: s2 = set('jmilk') In [142]: s2 Out[142]: {'i', 'j', 'k', 'l', 'm'} |
注意:set()函式只能接受迭代器(String、Tuple、List、Dict、set)作為引數。
1 2 3 4 5 6 7 |
In [180]: s1 = set(1) --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-180-8804a520da97> in <module>() ----> 1 s1 = set(1) TypeError: 'int' object is not iterable |
傳遞一個非迭代器引數時會報錯。
建立空集合
set() -> new empty set object
通過上面的例子,可見set型別資料和dict型別一樣也是使用{}來標識,但是需要注意的是:dict型別可以使用dic = {}
來建立一個空字典,set型別卻不能,只能通過s = set()
來建立。
1 2 3 4 5 6 7 8 9 10 11 12 |
In [15]: s = set() In [16]: s Out[16]: set() In [17]: d = {} In [18]: d Out[18]: {} In [20]: type(s),type(d) Out[20]: (set, dict) |
注意:因為set()是一個可變的集合,其元素的數量是不固定的,所以有add()、remove()方法。但也因為其可變性所以set()型別的物件沒有雜湊值(雜湊值),同時也不能作為dict物件的key和其他set物件的元素。
雜湊值:將長度不一的輸入資料來源,通過演算法轉換為長度一致的資料輸出,以此來提高查詢速度。
MD5:對檔案或者資料來源(字串、數值)進行計算後得到一個固定的值,用來驗證檔案或資料來源是否被篡改。一般用於檔案的數字簽名。
集合元素的唯一性
無論是set還是frozenset中的元素都是唯一的,會自動合併重疊元素。
1 2 3 4 5 6 7 8 |
In [17]: li = [1,2,3,1,1,2,'a','b','a'] In [18]: s1 = set(li) In [19]: s2 = frozenset(li) In [20]: s1,s2 Out[20]: ({1, 2, 3, 'a', 'b'}, frozenset({1, 2, 3, 'a', 'b'})) |
集合推導式
由一個迭代器推倒出一個新的集合。
1 2 |
In [175]: set(x**2 for x in range(1,6) if x < 4) Out[175]: {1, 4, 9} |
set型別物件的內建方法
add()增加一個元素
add(…)
Add an element to a set.
This has no effect if the element is already present.
增加一個元素到set物件中,如果這個元素已經存在,則沒有效果。
1 2 3 4 5 6 7 8 9 |
In [41]: s1 = set(range(10)) In [42]: s1 Out[42]: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} In [43]: s1.add(10) In [44]: s1 Out[44]: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} |
remove()刪除一個元素
remove(…)
Remove an element from a set; it must be a member.
If the element is not a member, raise a KeyError.
指定刪除set物件中的一個元素,如果集合中沒有這個元素,則返回一個錯誤。
1 2 3 4 5 6 7 |
In [47]: s1 Out[47]: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} In [48]: s1.remove(0) In [49]: s1 Out[49]: {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} |
一次只能刪除i個元素。
pop()隨機刪除並返回一個元素
pop(…)
Remove and return an arbitrary set element.
Raises KeyError if the set is empty.
隨機刪除並返回一個集合中的元素,若集合為空,則返回一個錯誤。
1 2 3 4 5 6 7 |
In [65]: s2 = set(['j','m','i','l','k']) In [66]: s2.pop() Out[66]: 'i' In [67]: s2.pop() Out[67]: 'k' |
discard()刪除一個元素
discard(…)
Remove an element from a set if it is a member.
If the element is not a member, do nothing.
指定刪除集合中的一個元素,若沒有這個元素,則do nothing。
1 2 3 4 5 6 7 8 9 10 11 12 |
In [90]: s1 Out[90]: {1, 2, 3, 4, 5, 6, 7, 8, 9} In [91]: s1.discard(1) In [92]: s1 Out[92]: {2, 3, 4, 5, 6, 7, 8, 9} In [93]: s1.discard('abc') In [94]: s1 Out[94]: {2, 3, 4, 5, 6, 7, 8, 9} |
clear()
clear(…)
Remove all elements from this set.
清空一個集合中的所有元素
1 2 3 4 5 6 7 |
In [94]: s1 Out[94]: {2, 3, 4, 5, 6, 7, 8, 9} In [95]: s1.clear() In [96]: s1 Out[96]: set() |
注意:上面列出的函式都是可變型別set物件獨有的函式,除此之外還有一些set和frozenset共有的內建函式,我們後面再介紹。
不可變集合Frozenset
frozenset凍結集合,即不可變集合。frozenset的元素是固定的,一旦建立後就無法增加、刪除和修改。其最大的優點是使用hash演算法實現,所以執行速度快,而且frozenset可以作為dict字典的Key,也可以成為其他集合的元素。
frozenset()建立一個frozenset集合
frozenset(object)
frozenset() -> empty frozenset object
frozenset(iterable) -> frozenset object
Build an immutable unordered collection of unique elements.
建立的固定的無序集合
1 2 3 4 5 6 |
In [108]: f1 = frozenset() #空的frozenset集合 In [109]: f2 = frozenset([1,2,3,'JMilk']) In [110]: f1,f2 Out[110]: (frozenset(), frozenset({1, 2, 3, 'JMilk'})) |
set能夠與frozenset作比較
1 2 3 4 5 6 |
In [4]: s1 = set([1,2,3]) In [5]: s2 = frozenset([1,2,3]) In [6]: s1 == s2 Out[6]: True |
set和frozenset的混合運算
兩種型別集合之間的混合運算會返回第一個操作元素的型別。
1 2 3 4 5 6 7 8 |
In [12]: s1 = set([1,2,3]) In [13]: s2 = frozenset([2,3,4]) In [14]: s3 = s1 | s2 In [15]: s3,type(s3) Out[15]: ({1, 2, 3, 4}, set) |
frozenset集合作為dic的key
1 2 3 4 5 6 |
In [138]: f = frozenset(['name']) In [139]: dic = {f:'Jmilk'} In [140]: dic Out[140]: {frozenset({'name'}): 'Jmilk'} |
set集合不可以作為Dictionary的Key:
1 2 3 4 5 6 7 8 9 |
In [144]: s1 = set(['JMilk']) In [145]: dic = {s1:'name'} --------------------------------------------------------------------------- TypeError Traceback (most recent call last) <ipython-input-145-a2aec7bb3b32> in <module>() ----> 1 dic = {s1:'name'} TypeError: unhashable type: 'set' #不具有hash |
set、frozenset共有的內建函式
set與frozenset型別的集合都支援集合之間的比較、交、並、差操作,類似資料的集合關係比較。但是需要注意的是:因為frozenset是不可變集合,所以下列函式中帶有’_update’關鍵字的函式,frozenset都不可以呼叫。
NOTE: 帶有 _update 的函式,使用原位操作的方法實現,擁有更低的資源消耗。但是這樣的話,函式是沒有返回值的,即不能將結果賦值給一個新的變數。
intersection()、intersection_update()求交集
intersection(…)
Return the intersection of two or more sets as a new set.
返回一個由若干個集合經過交集運算後得到的新交集,可以傳入多個迭代器型別的引數。即可以傳遞Tuple、List、、String、Dictionary、Set等型別引數。
集合之間求交集
1 2 3 4 5 6 7 8 9 10 11 12 |
In [59]: s1 Out[59]: {1, 2, 3, 'a', 'b'} In [60]: s2 Out[60]: {3, 4, 5, 'b', 'c', 'd'} In [61]: s3 = set([1,3,8,9,10,'d''e','f']) In [62]: s4 = s1.intersection(s2,s3) In [63]: s4 Out[63]: {3} |
注意:也可以使用邏輯與運算子 ‘&’
1 2 3 4 |
In [28]: s3 = s1 & s2 In [29]: s3 Out[29]: {3, 'b'} |
集合和列表求交集
1 2 3 4 5 6 7 |
In [64]: li Out[64]: [1, 2, 3, 1, 1, 2, 'a', 'b', 'a'] In [65]: s4 = s1.intersection(li) In [66]: s4 Out[66]: {1, 2, 3, 'a', 'b'} |
集合和元組求交集
1 2 3 4 5 6 |
In [67]: tup = (2,'a','c') In [68]: s4 = s1.intersection(tup) In [69]: s4 Out[69]: {2, 'a'} |
集合和字串求交集
注意:只能以String中的字元進行相交運算,不能與String的數字做運算。
1 2 3 4 5 6 7 8 9 |
In [70]: str = '123abc' In [71]: s4 = s1.intersection(str) In [72]: s4 Out[72]: {'a', 'b'} In [79]: s1 Out[79]: {1, 2, 3, 'a', 'b'} |
集合和字典求交集
注意:只能與字典中的Key進行相交運算。
1 2 3 4 5 6 7 8 9 |
In [79]: s1 Out[79]: {1, 2, 3, 'a', 'b'} In [80]: dic = {1:'name',2:'age'} In [81]: s4 = s1.intersection(dic) In [82]: s4 Out[82]: {1, 2} |
intersection()與intersection_update()的區別
intersection_update(…)
Update a set with the intersection of itself and another.
更新一個經過相交後的集合給自己。
注意:當我們希望將兩個物件相交後的結果更新給其中一個操作物件時,建議使用intersection_update()函式,這個函式使用原位操作的方法實現,擁有更低的資源消耗。但是intersection_update()函式是沒有返回值的,即不能將結果賦值給一個新的變數。
1 2 3 4 5 6 7 8 9 10 |
In [94]: s1 Out[94]: {1, 2, 3, 'a', 'b'} In [95]: s2 Out[95]: {3, 4, 5, 'b', 'c', 'd'} In [96]: s1.intersection_update(s2) In [97]: s1 Out[97]: {3, 'b'} |
union()、update()求並集
與intersection()一樣,可以傳遞不同的迭代器型別引數。
union() 返回並集
union(…)
Return the union of sets as a new set.
1 2 |
In [108]: s4 Out[108]: {1, 2, 3, 4, 5, 8, 9, 10, 'a', 'b', 'c', 'd', 'de', 'f'} |
注意:可以使用邏輯或運算子 ‘|’
1 2 3 4 |
In [109]: s4 = s1 | s2 | s3 In [110]: s4 Out[110]: {1, 2, 3, 4, 5, 8, 9, 10, 'a', 'b', 'c', 'd', 'de', 'f'} |
update()更新並集
update(…)
Update a set with the union of itself and others.
update()方法沒有返回值。
1 2 3 4 5 |
In [111]: s1.update(s2,s3) In [112]: s1 Out[112]: {1, 2, 3, 4, 5, 8, 9, 10, 'a', 'b', 'c', 'd', 'de', 'f'} |
difference()、difference_update()求差
difference()
difference(…)
Return the difference of two or more sets as a new set.
返回由一個集合中不存在於其他若干個集合的元素組成的新集合。
1 2 3 4 5 6 7 8 9 10 |
In [122]: s1 Out[122]: {1, 2, 3, 'a', 'b'} In [123]: s2 Out[123]: {3, 4, 5, 'b', 'c', 'd'} In [124]: s3 = s1.difference(s2) In [125]: s3 Out[125]: {1, 2, 'a'} |
注意:可以使用算術運算子減 ‘-‘
1 2 3 4 |
In [126]: s3 = s1 - s2 In [127]: s3 Out[127]: {1, 2, 'a'} |
difference_update()
difference_update(…)
Remove all elements of another set from this set.
更新原來集合。
1 2 3 4 |
In [130]: s1.difference_update(s2) In [131]: s1 Out[131]: {1, 2, 'a'} |
symmetric_difference()、symmetric_difference_update()求集合彼此之差的並集
symmetric_difference()
symmetric_difference(…)
Return the symmetric difference of two sets as a new set.
即返回(set1 – set2)|(set2 – set1)的結果
1 2 3 4 5 6 7 8 9 10 |
In [138]: s1 Out[138]: {1, 2, 3, 'a', 'b'} In [139]: s2 Out[139]: {3, 4, 5, 'b', 'c', 'd'} In [140]: s3 = s1.symmetric_difference(s2) In [141]: s3 Out[141]: {1, 2, 4, 5, 'a', 'c', 'd'} |
等效於:
1 2 3 4 5 6 7 8 9 10 |
In [147]: s1 - s2 Out[147]: {1, 2, 'a'} In [148]: s2 - s1 Out[148]: {4, 5, 'c', 'd'} In [144]: s3 = (s1 - s2)|(s2 - s1) In [145]: s3 Out[145]: {1, 2, 4, 5, 'a', 'c', 'd'} |
注意:可以使用^來代替
1 2 3 4 |
In [142]: s3 = s1 ^ s2 In [143]: s3 Out[143]: {1, 2, 4, 5, 'a', 'c', 'd'} |
symmetric_difference_update()
symmetric_difference_update(…)
Update a set with the symmetric difference of itself and another.
1 2 3 4 |
In [150]: s1.symmetric_difference_update(s2) In [151]: s1 Out[151]: {1, 2, 4, 5, 'a', 'c', 'd'} |
集合間的關係
相等:只有每一個一個set都互相是另一個set的子集時,這兩個set才相等。
小於(set1包含於set2):只有當第一個set1是另一個set2的子集,別且兩個set不相等時,第一個set1小於第二個set2。
大於(set1包含set2):只有第一個set1是第二個set2的超集、並且兩者不相等時,第一個set2大於第二個set2。
isdisjoint()兩個集合不相交
isdisjoint(…)
Return True if two sets have a null intersection.
即set1 & set2 == set() 時,為True
1 2 3 4 5 6 7 8 9 10 11 |
In [155]: s1 Out[155]: {1, 2, 4, 5, 'a', 'c', 'd'} In [156]: s2 Out[156]: {3, 4, 5, 'b', 'c', 'd'} In [158]: (s1 - s2) & s2 == set() Out[158]: True In [159]: s2.isdisjoint(s1-s2) Out[159]: True |
issuperset()一個集合包含另一個集合
issuperset(…)
Report whether this set contains another set.
1 2 3 4 5 6 7 8 |
In [169]: s1 Out[169]: {0, 1, 2} In [170]: s2 Out[170]: {0, 1, 2, 3, 4} In [172]: s2.issuperset(s1) Out[172]: True |
s2大於s1
issubset()一個集合包含於另一個集合
issubset(…)
Report whether another set contains this set.
1 2 3 4 5 6 7 8 |
In [169]: s1 Out[169]: {0, 1, 2} In [170]: s2 Out[170]: {0, 1, 2, 3, 4} In [171]: s1.issubset(s2) Out[171]: True |
s1被s2包含
集合的資料型別轉換
主要轉換為序列型別。
1 2 3 4 5 6 7 8 9 10 |
In [1]: set1 = set(range(5)) In [2]: li = list(set1) In [3]: tup = tuple(set1) In [4]: string = str(set1) In [5]: li,tup,string Out[5]: ([0, 1, 2, 3, 4], (0, 1, 2, 3, 4), 'set([0, 1, 2, 3, 4])') |
最後
集合是一個非常有意思的資料結構,他或許不被經常使用,但是在比較嚴格的執行環境下,集合是一個非常好的選擇。
請使用手機”掃一掃”x