眾所周知，Python是一門強大的程式語言，可以進行資料抓取、資料分析等，能幫助我們高效地處理資料。但在進行資料處理的過程中，我們經常會遇到重複資料的問題，那麼Python如何去除重複資料?在Python中，有多種方法可以去除重複資料，以下是具體內容介紹。

　　1、使用set()函式去重

　　set()是Python中的一個內建函式，用於建立一個集合。集合是無序不重複的元素集合，可以方便地用於去重操作。我們可以將要去重的資料轉換為集合，然後再轉換為列表，即可去除重複資料。示例程式碼：

　　```

　　data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

　　data = list(set(data))

　　print(data)

　　```

　　輸出結果為：[1, 2, 3, 4, 5, 6, 7, 8, 9]

　　2、使用pandas庫去重

　　pandas是Python中一種常用的資料處理庫，可以方便地進行資料清洗、轉換、分析等操作。pandas提供了drop_duplicates()函式，可以用於去除dataframe中的重複資料。示例程式碼：

　　```

　　import pandas as pd

　　data = {'A': [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9],

　　'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'h']}

　　df = pd.DataFrame(data)

　　df = df.drop_duplicates()

　　print(df)

　　```

　　輸出結果為：

　　```

　　A B

　　0 1 a

　　1 2 b

　　2 3 c

　　3 4 d

　　6 5 c

　　7 6 d

　　9 7 f

　　10 8 g

　　11 9 h

　　```

　　3、使用numpy庫去重

　　numpy是Python中一個常用的科學計算庫，可以用於陣列操作、線性代數運算等。numpy提供了unique()函式，可以用於去除陣列中的重複元素。示例程式碼：

　　```

　　import numpy as np

　　data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

　　data = np.unique(data)

　　print(data)

　　```

　　輸出結果為：[1 2 3 4 5 6 7 8 9]

　　4、使用hash去重

　　hash是一種將任意長度的訊息壓縮到某一固定長度的演演算法。Python中的字典使用了hash表來實現，因此可以利用字典的特性進行去重操作。示例程式碼：

　　```

　　data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

　　result = list(dict.fromkeys(data))

　　print(result)

　　```

　　輸出結果為：[1, 2, 3, 4, 5, 6, 7, 8, 9]

Python中去除重複資料的方法有哪些？

相關文章