Python中去除重複資料的方法有哪些?

老男孩IT教育機構發表於2023-11-06

  眾所周知,Python是一門強大的程式語言,可以進行資料抓取、資料分析等,能幫助我們高效地處理資料。但在進行資料處理的過程中,我們經常會遇到重複資料的問題,那麼Python如何去除重複資料?在Python中,有多種方法可以去除重複資料,以下是具體內容介紹。

  1、使用set()函式去重

  set()是Python中的一個內建函式,用於建立一個集合。集合是無序不重複的元素集合,可以方便地用於去重操作。我們可以將要去重的資料轉換為集合,然後再轉換為列表,即可去除重複資料。示例程式碼:

  ```

  data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

  data = list(set(data))

  print(data)

  ```

  輸出結果為:[1, 2, 3, 4, 5, 6, 7, 8, 9]

  2、使用pandas庫去重

  pandas是Python中一種常用的資料處理庫,可以方便地進行資料清洗、轉換、分析等操作。pandas提供了drop_duplicates()函式,可以用於去除dataframe中的重複資料。示例程式碼:

  ```

  import pandas as pd

  data = {'A': [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9],

  'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'h']}

  df = pd.DataFrame(data)

  df = df.drop_duplicates()

  print(df)

  ```

  輸出結果為:

  ```

  A B

  0 1 a

  1 2 b

  2 3 c

  3 4 d

  6 5 c

  7 6 d

  9 7 f

  10 8 g

  11 9 h

  ```

  3、使用numpy庫去重

  numpy是Python中一個常用的科學計算庫,可以用於陣列操作、線性代數運算等。numpy提供了unique()函式,可以用於去除陣列中的重複元素。示例程式碼:

  ```

  import numpy as np

  data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

  data = np.unique(data)

  print(data)

  ```

  輸出結果為:[1 2 3 4 5 6 7 8 9]

  4、使用hash去重

  hash是一種將任意長度的訊息壓縮到某一固定長度的演演算法。Python中的字典使用了hash表來實現,因此可以利用字典的特性進行去重操作。示例程式碼:

  ```

  data = [1, 2, 3, 4, 1, 2, 5, 6, 3, 7, 8, 9, 9]

  result = list(dict.fromkeys(data))

  print(result)

  ```

  輸出結果為:[1, 2, 3, 4, 5, 6, 7, 8, 9]


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2993097/,如需轉載,請註明出處,否則將追究法律責任。

相關文章