用python字典統計CSV資料

TechSynapse發表於2024-05-28

1.用python字典統計CSV資料的步驟和程式碼示例

為了使用Python字典來統計CSV資料,我們可以使用內建的csv模組來讀取CSV檔案,並使用字典來儲存統計資訊。以下是一個詳細的步驟和完整的程式碼示例:

1.1步驟

(1)匯入csv模組。

(2)開啟CSV檔案並讀取資料。

(3)初始化一個空字典來儲存統計資訊。

(4)遍歷CSV檔案的每一行資料。

(5)對於每一行資料,根據需要選擇一列或多列作為鍵(key),並統計其出現次數(或執行其他型別的統計)。

(6)將統計結果儲存在字典中。

(7)關閉CSV檔案。

(8)(可選)輸出或處理統計結果。

1.2程式碼示例

假設我們有一個CSV檔案data.csv,內容如下:

Name,Age,Gender  
Alice,25,Female  
Bob,30,Male  
Charlie,25,Male  
Alice,26,Female

我們想統計每個年齡(Age)的人數。

import csv  
  
# 初始化一個空字典來儲存統計資訊  
age_counts = {}  
  
# 開啟CSV檔案並讀取資料  
with open('data.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.DictReader(csv_file)  
      
    # 跳過表頭(如果有)  
    next(csv_reader, None)  # 消耗迭代器中的第一行(即表頭)  
      
    # 遍歷CSV檔案的每一行資料  
    for row in csv_reader:  
        age = int(row['Age'])  # 假設年齡是整數,如果不是則需要相應處理  
          
        # 統計每個年齡的人數  
        if age in age_counts:  
            age_counts[age] += 1  
        else:  
            age_counts[age] = 1  
  
# 輸出統計結果  
for age, count in age_counts.items():  
    print(f"Age {age}: {count} people")

執行上述程式碼,我們將得到以下輸出:

Age 25: 2 people  
Age 26: 1 people  
Age 30: 1 people

這樣,我們就使用Python字典成功地統計了CSV資料中的年齡資訊。

2.詳細的程式碼示例例子展示

我們展示幾個不同的例子,這些例子展示瞭如何使用Python字典來統計CSV檔案中的資料。

2.1統計每個名字的出現次數

假設我們有一個CSV檔案names.csv,內容如下:

Name  
Alice  
Bob  
Charlie  
Alice  
Bob  
David

我們想要統計每個名字的出現次數。

import csv  
  
name_counts = {}  
  
with open('names.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.reader(csv_file)  
    next(csv_reader, None)  # 跳過表頭  
  
    for row in csv_reader:  
        name = row[0]  
        if name in name_counts:  
            name_counts[name] += 1  
        else:  
            name_counts[name] = 1  
  
# 輸出統計結果  
for name, count in name_counts.items():  
    print(f"Name {name}: {count} occurrences")

2.2統計每個年齡段的使用者數量

假設我們有一個CSV檔案users.csv,內容如下:

Name,Age  
Alice,25  
Bob,32  
Charlie,18  
David,28  
Eve,19

我們想要統計18-24歲、25-30歲、31歲及以上每個年齡段的使用者數量。

import csv  
  
age_groups = {  
    '18-24': 0,  
    '25-30': 0,  
    '31+': 0  
}  
  
with open('users.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.DictReader(csv_file)  
    next(csv_reader, None)  # 跳過表頭  
  
    for row in csv_reader:  
        age = int(row['Age'])  
        if 18 <= age <= 24:  
            age_groups['18-24'] += 1  
        elif 25 <= age <= 30:  
            age_groups['25-30'] += 1  
        else:  
            age_groups['31+'] += 1  
  
# 輸出統計結果  
for age_group, count in age_groups.items():  
    print(f"Age group {age_group}: {count} users")

2.3統計每個性別在每個年齡段的使用者數量

假設我們有一個CSV檔案users_advanced.csv,內容如下:

Name,Age,Gender  
Alice,25,Female  
Bob,32,Male  
Charlie,18,Male  
David,28,Male  
Eve,19,Female

我們想要統計每個性別在每個年齡段(18-24歲、25-30歲、31歲及以上)的使用者數量。

import csv  
  
age_gender_counts = {  
    '18-24': {'Male': 0, 'Female': 0},  
    '25-30': {'Male': 0, 'Female': 0},  
    '31+': {'Male': 0, 'Female': 0}  
}  
  
with open('users_advanced.csv', mode='r', encoding='utf-8') as csv_file:  
    csv_reader = csv.DictReader(csv_file)  
    next(csv_reader, None)  # 跳過表頭  
  
    for row in csv_reader:  
        age = int(row['Age'])  
        gender = row['Gender']  
        if 18 <= age <= 24:  
            age_group = '18-24'  
        elif 25 <= age <= 30:  
            age_group = '25-30'  
        else:  
            age_group = '31+'  
        age_gender_counts[age_group][gender] += 1  
  
# 輸出統計結果  
for age_group, gender_counts in age_gender_counts.items():  
    print(f"Age group {age_group}:")  
    for gender, count in gender_counts.items():  
        print(f"  {gender}: {count} users")  
    print()

3.統計字典的缺點和侷限

統計字典(即使用Python字典來儲存統計資訊)在資料分析和處理中是一種非常有效的方法,但它也有一些潛在的缺點和侷限性:

(1)記憶體佔用:字典在記憶體中儲存鍵值對,當資料量非常大時,它們會佔用相當多的記憶體。這可能會導致程式在記憶體有限的系統上執行緩慢或崩潰。

(2)稀疏性:如果統計的資料非常稀疏(即許多鍵在字典中只出現一次或根本不出現),則字典將包含大量的鍵值對,其中許多值都是1或0。這可能導致記憶體使用效率低下。

(3)不可排序:字典本身是無序的,儘管在Python 3.7+中插入順序被保留(但這不應該被用作排序的依據)。如果我們需要按照特定的順序遍歷統計結果,我們可能需要額外的步驟來對字典的鍵或值進行排序。

(4)併發問題:在多執行緒或多程序環境中,直接修改字典可能會引發併發問題,如資料競爭和不一致的結果。在這種情況下,我們可能需要使用鎖或其他同步機制來保護對字典的訪問。

(5)不支援快速範圍查詢:字典不支援像列表或陣列那樣的範圍查詢。如果我們需要查詢在某個範圍內的所有鍵或值,我們可能需要遍歷整個字典,這可能會很慢。

(6)無法直接進行數學運算:字典本身不支援數學運算(如加法、減法、乘法等)。如果我們需要對統計結果進行數學運算,我們可能需要將字典轉換為其他資料結構(如NumPy陣列或Pandas DataFrame),或者編寫額外的程式碼來處理字典中的值。

(7)不支援多維索引:字典只能使用單個鍵來索引值。如果我們需要基於多個鍵來索引值(例如,在多維資料集中),我們可能需要使用巢狀字典或其他資料結構。

(8)可讀性和可維護性:對於複雜的統計任務,使用字典可能會導致程式碼變得難以閱讀和維護。在這種情況下,使用更高階的資料結構或庫(如Pandas DataFrame)可能會更合適。

儘管有這些缺點,但字典在統計和資料處理中仍然是非常有用的工具。它們提供了靈活且高效的方式來儲存和檢索資料,並且對於許多常見任務來說已經足夠了。然而,在設計我們的程式時,我們應該考慮我們的具體需求和環境,並選擇最適合我們的資料結構和方法。

相關文章