本文介紹基於Python語言,讀取Excel表格檔案資料,以其中某一列資料的值為標準,對於這一列資料處於指定範圍的所有行,再用其他幾列資料的數值,加以資料篩選與剔除;同時,對篩選前、後的資料分別繪製若干直方圖,並將結果資料匯出儲存為一個新的Excel表格檔案的方法。
首先,我們來明確一下本文的具體需求。現有一個Excel表格檔案,在本文中我們就以.csv
格式的檔案為例;其中,如下圖所示,這一檔案中有一列(在本文中也就是days
這一列)資料,我們將其作為基準資料,希望首先取出days
數值處於0
至45
、320
至365
範圍內的所有樣本(一行就是一個樣本),進行後續的操作。
其次,對於取出的樣本,再依據其他4
列(在本文中也就是blue_dif
、green_dif
、red_dif
與inf_dif
這4
列)資料,將這4
列資料不在指定數值區域內的行刪除。在這一過程中,我們還希望繪製在資料刪除前、後,這4
列(也就是blue_dif
、green_dif
、red_dif
與inf_dif
這4
列)資料各自的直方圖,一共是8
張圖。最後,我們還希望將刪除上述資料後的資料儲存為一個新的Excel表格檔案。
知道了需求,我們就可以撰寫程式碼。本文所用的程式碼如下所示。
# -*- coding: utf-8 -*-
"""
Created on Tue Sep 12 07:55:40 2023
@author: fkxxgis
"""
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
original_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/Train_Model_0715_Main_Over_NIR.csv"
# original_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/TEST.csv"
result_file_path = "E:/01_Reflectivity/99_Model/02_Extract_Data/26_Train_Model_New/Train_Model_0715_Main_Over_NIR_New.csv"
df = pd.read_csv(original_file_path)
blue_original = df[(df['blue_dif'] >= -0.08) & (df['blue_dif'] <= 0.08)]['blue_dif']
green_original = df[(df['green_dif'] >= -0.08) & (df['green_dif'] <= 0.08)]['green_dif']
red_original = df[(df['red_dif'] >= -0.08) & (df['red_dif'] <= 0.08)]['red_dif']
inf_original = df[(df['inf_dif'] >= -0.1) & (df['inf_dif'] <= 0.1)]['inf_dif']
mask = ((df['days'] >= 0) & (df['days'] <= 45)) | ((df['days'] >= 320) & (df['days'] <= 365))
range_min = -0.03
range_max = 0.03
df.loc[mask, 'blue_dif'] = df.loc[mask, 'blue_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x]))
df.loc[mask, 'green_dif'] = df.loc[mask, 'green_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x]))
df.loc[mask, 'red_dif'] = df.loc[mask, 'red_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x]))
df.loc[mask, 'inf_dif'] = df.loc[mask, 'inf_dif'].apply(lambda x: x if range_min <= x <= range_max else np.random.choice([np.nan, x], p =[0.9, 0.1]))
df = df.dropna()
blue_new = df[(df['blue_dif'] >= -0.08) & (df['blue_dif'] <= 0.08)]['blue_dif']
green_new = df[(df['green_dif'] >= -0.08) & (df['green_dif'] <= 0.08)]['green_dif']
red_new = df[(df['red_dif'] >= -0.08) & (df['red_dif'] <= 0.08)]['red_dif']
inf_new = df[(df['inf_dif'] >= -0.1) & (df['inf_dif'] <= 0.1)]['inf_dif']
plt.figure(0)
plt.hist(blue_original, bins = 50)
plt.figure(1)
plt.hist(green_original, bins = 50)
plt.figure(2)
plt.hist(red_original, bins = 50)
plt.figure(3)
plt.hist(inf_original, bins = 50)
plt.figure(4)
plt.hist(blue_new, bins = 50)
plt.figure(5)
plt.hist(green_new, bins = 50)
plt.figure(6)
plt.hist(red_new, bins = 50)
plt.figure(7)
plt.hist(inf_new, bins = 50)
df.to_csv(result_file_path, index=False)
首先,我們透過pd.read_csv
函式從指定路徑的.csv
檔案中讀取資料,並將其儲存在名為df
的DataFrame中。
接下來,透過一系列條件篩選操作,從原始資料中選擇滿足特定條件的子集。具體來說,我們篩選出了在blue_dif
、green_dif
、red_dif
與inf_dif
這4
列中數值在一定範圍內的資料,並將這些資料儲存在名為blue_original
、green_original
、red_original
和inf_original
的新Series中,這些資料為我們後期繪製直方圖做好了準備。
其次,建立一個名為mask
的布林掩碼,該掩碼用於篩選滿足條件的資料。在這裡,它篩選出了days
列的值在0
到45
之間或在320
到365
之間的資料。
隨後,我們使用apply
函式和lambda
表示式,對於days
列的值在0
到45
之間或在320
到365
之間的行,如果其blue_dif
、green_dif
、red_dif
與inf_dif
這4
列的資料不在指定範圍內,那麼就將這列的資料隨機設定為NaN,p =[0.9, 0.1]
則是指定了隨機替換為NaN的機率。這裡需要注意,如果我們不給出p =[0.9, 0.1]
這樣的機率分佈,那麼程式將依據均勻分佈的原則隨機選取資料。
最後,我們使用dropna
函式,刪除包含NaN值的行,從而得到篩選處理後的資料。其次,我們依然根據這四列的篩選條件,計算出處理後的資料的子集,儲存在blue_new
、green_new
、red_new
和inf_new
中。緊接著,使用Matplotlib建立直方圖來視覺化原始資料和處理後資料的分佈;這些直方圖被分別儲存在8
個不同的圖形中。
程式碼的最後,將處理後的資料儲存為新的.csv
檔案,該檔案路徑由result_file_path
指定。
執行上述程式碼,我們將得到8
張直方圖,如下圖所示。且在指定的資料夾中看到結果檔案。
至此,大功告成。