資料處理

兔兔求放过鸭發表於2024-07-18

原文網址 : http://blog.itpub.net/4687/viewspace-2808474/

資料處理：

主要利用的庫

import numpy as np
import pandas as pd

函式的使用：

1.讀取:

path = "路徑"
c = pd.read_csv(path,sep="")引數sep是資料的分割符號，如果不輸入在讀取csv檔案中將預設為“，”
返回的內容是屬於pandas庫的特殊資料型別DataFrame。
在讀取過程中，該函式會根據給出的資料自行判斷資料型別，如果匯入的資料型別並不是希望的資料型別，可以透過下面這個函式規定。如下，將column_name這一列的資料規定為int64型
df = pd.read_csv('example.csv', dtype={'column_name': 'int64'})

如果檔案沒有列名，我們也可以透過先構建一個
names列表儲存列名利用read中的names引數來新增列名。

df.rename(columns={'A': 'X', 'B': 'Y'})
其中字典的key值為原列名，value為修改後的列名。
df = pd.read_csv('example.csv',names=names)# 前一個names是引數名，後一個是具體引數。
需要特別注意的是，如果資料本身有列名，本身的列名會被擠去第二行，另外。names中的列名，會與實際的列名右對齊，也就是說，如果資料的列數大於names中名字的個數，左側的幾列資料會出現沒有新增列名的情況。

2.觀察資料

df 為已經讀取的資料

df.info() 檢視的資料為其中每列的資料型別，以及資料中的非空缺的數值數目。
# 輸出內容為資料的列名，每列資料的數量，資料型別# 不需要print也能夠輸出相應資訊。
df.describe() # 輸出的內容為每列的
        count: 非NA/非空值的數量。
        mean: 平均值（均值）。
        std: 標準差（標準偏差）。
        min: 最小值。
        25%: 第一四分位數（Q1），即資料集中最小的25%的資料的最大值。
        50%: 中位數（第二四分位數，Q2）。
        75%: 第三四分位數（Q3），即資料集中最大的25%的資料的最小值。
        max: 最大值。
# 如果要提取這些數字我們可以 a = df[列名].max()/mean()/std()
df.columns表示為df資料的列名 # 在處理資料時我們也可以透過
# df.columns = names # 來將列名替換成names中的資料，此時names中的列名量必須等於df中的列數。




指定觀察用iloc或者loc：



# iloc
# 獲取第一行的資料
row1 = df.iloc[0]
print(row1)

# 獲取第二列的資料
col2 = df.iloc[:, 1]
print(col2)

# 獲取第二行第二列的單個值
value = df.iloc[1, 1]
print(value)

# 獲取多個行和多個列的資料
selected = df.iloc[[0, 2], [0, 2]]
print(selected)



# loc
row1 = df.loc['row1']
print(row1)

# 獲取第二列的資料
col2 = df.loc[:, 'B']
print(col2)

# 獲取第二行第二列的單個值
value = df.loc['row2', 'B']
print(value)

# 獲取多個行和多個列的資料
selected = df.loc[['row1', 'row3'], ['A', 'C']]
print(selected)

3.資料清洗：

	# 在觀察資料之後，我們要清洗的內容包括缺失值，異常值。重複值
    處理缺失值的方法：我們可以將缺失值設定為一個不在資料中存在存在的數值，比如0，-1，也可以設定成bool型的False。
    對於異常值，我們可以根據常識挑選出這些異常值，比如說挑選挑選出網齡大於200歲的資料，或者年齡為負數的人。異常值的處理方式，如果即便刪除異常值所在行對最後結果產生影響不大的情況下，我們可以刪除異常值所在的一整行資料，比如你有幾萬個資料，其中的異常值只有一二十，那根據情況，我們可以選擇直接刪除這一行資料。-->這麼做就是直接抹去存在異常值的資料。在對最終結果影響不大的前提下，我們可以透過用正常值的平均值或者中位數來代替這個位置的資料 --> 如果這樣處理的話，程式的分析內容將減小異常值的影響，從而在這一行分析除了異常意外列的資料對結果的影響。
    處理重複值
    df.drop.duplicates("列名",keep="first")# 保留重複的第一個
    a = df[df[列名] > 100]
    此時a即為在df某一列中滿足該列數字大於100的所有的行，前提：此處的資料型別應為確切的整形。
    df[列名].isnull() 將返回該列名下資料為0的那一整行
    利用isnull可以區分出缺失值

4.資料處理

df = df.frop_duplicates(["x",'y'])# 找出xy兩列的組合方式
df.groupby(['x','y'])
df['體力'] = df['體力'].apply(lambda x:"high" if int(x) > 100 else 'low' if int(x) < 50 else 'mid')集體調整數字

5資料整理：

df = df.sort_values(by='列名',ascending=False).reset_index(drop=True) # ascending=False: 表示降序排序。如果設定為True，則表示升序排序。
# reset_index(): 會重置資料框的索引。預設情況下，重置索引會將舊索引新增為資料框的一個列。
# drop=True: 表示在重置索引時，不將舊索引新增為資料框的一個列。這樣可以避免資料框中出現重複的索引列。

未完待續！

Python資料處理（二）：處理 Excel 資料
2019-02-16
PythonExcel
海量資料處理
2018-03-08
python 處理資料
2020-10-29
Python
springmvc 資料處理
2020-10-06
SpringMVC
Panda資料處理
2024-07-15
資料預處理
2021-09-09
Excel 資料處理
2022-07-21
Excel
javascript - 資料處理
2020-12-02
JavaScript
資料分析--資料預處理
2023-12-14
資料預處理-資料清理
2020-01-19
資料清洗和資料處理
2020-03-03
Python資料處理(一)：處理 JSON、XML、CSV 三種格式資料
2019-01-27
PythonJSONXML
請求資料處理
2018-11-14
海量資料處理2
2018-08-28
雨滴譜資料處理
2024-04-08
flutter json資料處理
2019-08-26
FlutterJSON
資料預處理 demo
2020-02-19
流資料處理利器
2020-10-09
Hive處理Json資料
2021-11-30
HiveJSON
0701-資料處理
2021-04-27
資料預處理-資料歸約
2020-01-19
資料處理之去除重複資料
2020-03-17
UCI資料集詳解及其資料處理（附148個資料集及處理程式碼）
2022-04-19
下載資料的處理
2018-12-24
spark處理json資料Demo
2019-02-26
SparkJSON
處理圖片流資料
2019-04-15
js資料處理——遍歷
2018-07-16
JS
nlp 中文資料預處理
2019-12-02
處理恢復資料方法
2019-12-25
TANet資料預處理流程
2020-10-07
資料處理及跳轉
2020-07-04
資料清洗處理-常用操作
2020-03-24
MySQL 處理重複資料
2019-07-02
MySql
[資料處理]python基礎
2019-02-02
Python
資料處理--pandas問題
2024-08-04
LLAMA3.1資料處理
2024-07-25
處理json格式的資料
2024-07-23
JSON
Python資料處理典型用法
2024-11-03
Python

資料處理

資料處理：

主要利用的庫

函式的使用：

1.讀取:

2.觀察資料

3.資料清洗：

4.資料處理

5資料整理：

相關文章