Python按條件篩選、剔除表格資料並繪製剔除前後的直方圖

疯狂学习GIS發表於2024-07-20

  本文介紹基於Python語言,讀取Excel表格檔案資料,以其中某一列資料的值為標準,對於這一列資料處於指定範圍所有行,再用其他幾列資料的數值,加以資料篩選與剔除;同時,對篩選前、後的資料分別繪製若干直方圖,並將結果資料匯出儲存為一個新的Excel表格檔案的方法。

  首先,我們來明確一下本文的具體需求。現有一個Excel表格檔案,在本文中我們就以.csv格式的檔案為例;其中,如下圖所示,這一檔案中有一列(在本文中也就是days這一列)資料,我們將其作為基準資料,希望首先取出days數值處於045320365範圍內的所有樣本(一行就是一個樣本),進行後續的操作。

image

  其次,對於取出的樣本,再依據其他4列(在本文中也就是blue_difgreen_difred_difinf_dif4列)資料,將這4列資料不在指定數值區域內的行刪除。在這一過程中,我們還希望繪製在資料刪除前、後,這4列(也就是blue_difgreen_difred_difinf_dif4列)資料各自的直方圖,一共是8張圖。最後,我們還希望將刪除上述資料後的資料儲存為一個新的Excel表格檔案。

  知道了需求,我們就可以撰寫程式碼。本文所用的程式碼如下所示。

# -*- coding: utf-8 -*-
"""
Created on Tue Sep 12 07:55:40 2023

@author: fkxxgis
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

original_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/Train_Model_0715_Main_Over_NIR.csv"
# original_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/TEST.csv"
result_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/Train_Model_0715_Main_Over_NIR_New.csv"

df = pd.read_csv(original_file_path)

blue_original = df[(df['blue_dif'] >= -0.08) & (df['blue_dif'] <= 0.08)]['blue_dif']
green_original = df[(df['green_dif'] >= -0.08) & (df['green_dif'] <= 0.08)]['green_dif']
red_original = df[(df['red_dif'] >= -0.08) & (df['red_dif'] <= 0.08)]['red_dif']
inf_original = df[(df['inf_dif'] >= -0.1) & (df['inf_dif'] <= 0.1)]['inf_dif']

mask = ((df['days'] >= 0) & (df['days'] <= 45)) | ((df['days'] >= 320) & (df['days'] <= 365))
range_min = -0.03
range_max = 0.03

df.loc[mask, 'blue_dif'] = df.loc[mask, 'blue_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x]))
df.loc[mask, 'green_dif'] = df.loc[mask, 'green_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x]))
df.loc[mask, 'red_dif'] = df.loc[mask, 'red_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x]))
df.loc[mask, 'inf_dif'] = df.loc[mask, 'inf_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x], p =[0.9, 0.1]))
df = df.dropna()

blue_new = df[(df['blue_dif'] >= -0.08) & (df['blue_dif'] <= 0.08)]['blue_dif']
green_new = df[(df['green_dif'] >= -0.08) & (df['green_dif'] <= 0.08)]['green_dif']
red_new = df[(df['red_dif'] >= -0.08) & (df['red_dif'] <= 0.08)]['red_dif']
inf_new = df[(df['inf_dif'] >= -0.1) & (df['inf_dif'] <= 0.1)]['inf_dif']

plt.figure(0)
plt.hist(blue_original, bins = 50)
plt.figure(1)
plt.hist(green_original, bins = 50)
plt.figure(2)
plt.hist(red_original, bins = 50)
plt.figure(3)
plt.hist(inf_original, bins = 50)

plt.figure(4)
plt.hist(blue_new, bins = 50)
plt.figure(5)
plt.hist(green_new, bins = 50)
plt.figure(6)
plt.hist(red_new, bins = 50)
plt.figure(7)
plt.hist(inf_new, bins = 50)

df.to_csv(result_file_path, index=False)

  首先,我們透過pd.read_csv函式從指定路徑的.csv檔案中讀取資料,並將其儲存在名為dfDataFrame中。

  接下來,透過一系列條件篩選操作,從原始資料中選擇滿足特定條件的子集。具體來說,我們篩選出了在blue_difgreen_difred_difinf_dif4列中數值在一定範圍內的資料,並將這些資料儲存在名為blue_originalgreen_originalred_originalinf_original的新Series中,這些資料為我們後期繪製直方圖做好了準備。

  其次,建立一個名為mask的布林掩碼,該掩碼用於篩選滿足條件的資料。在這裡,它篩選出了days列的值在045之間或在320365之間的資料。

  隨後,我們使用apply函式和lambda表示式,對於days列的值在045之間或在320365之間的行,如果其blue_difgreen_difred_difinf_dif4列的資料不在指定範圍內,那麼就將這列的資料隨機設定為NaNp =[0.9, 0.1]則是指定了隨機替換為NaN的機率。這裡需要注意,如果我們不給出p =[0.9, 0.1]這樣的機率分佈,那麼程式將依據均勻分佈的原則隨機選取資料。

  最後,我們使用dropna函式,刪除包含NaN值的行,從而得到篩選處理後的資料。其次,我們依然根據這四列的篩選條件,計算出處理後的資料的子集,儲存在blue_newgreen_newred_newinf_new中。緊接著,使用Matplotlib建立直方圖來視覺化原始資料和處理後資料的分佈;這些直方圖被分別儲存在8個不同的圖形中。

  程式碼的最後,將處理後的資料儲存為新的.csv檔案,該檔案路徑由result_file_path指定。

  執行上述程式碼,我們將得到8張直方圖,如下圖所示。且在指定的資料夾中看到結果檔案。

  至此,大功告成。

相關文章