被 Pandas read_csv 坑了

機器學習演算法與Python發表於2020-12-20

原文網址 : https://www.cnblogs.com/jpld/p/14162305.html

被 Pandas read_csv 坑了

-- 不怕前路坎坷，只怕從一開始就走錯了方向

Pandas 是python的一個資料分析包，納入了大量庫和一些標準的資料模型，提供了高效地操作大型資料集所需的工具。Pandas 就是為解決資料分析任務生的，無論是資料分析還是機器學習專案資料預處理中， Pandas 無處不在。

最近掉進一坑，差點鑄成大錯。實在沒想到居然栽在pandas.read_csv上了，這裡分享一下，希望大家注意。

另：業務資料不方便拿出來演示，為儘可能復現，這裡我手造了一份，另存為 income.csv 檔案。

看起來都是正經的資料

翻船記

讀取csv檔案小菜一碟

import numpy as np
import pandas as pd
df = pd.read_csv(r'C:\...\income.csv',encoding='utf-8')

讀好了看看資料資訊吧：

df.info()


RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   income  6 non-null      object
dtypes: object(1)
memory usage: 176.0+ bytes

誒，怎麼資料成了object？不應該是float嗎？

不管他，硬轉一發

df=pd.DataFrame(df,dtype=np.float)

居然報錯了，1000被讀成了字串。

其實這裡我還掉進了另一個坑，使用了一個已被棄用的 .convert_objects 方法。這種方法更硬，直接把string轉成了NaN，所以後面各種操作流暢且錯誤地進行著....這都是 pandas 沒升級的鍋，定期檢查升級包太有必要了（pip 的高階玩法）

說回剛才的問題，1,000被讀成了字串是因為csv檔案中它使用了千位分隔符。問題其實非常簡單，設定一下 thousands 引數就行了

df2 = pd.read_csv(r'C:\...\income.csv',encoding='utf-8',thousands =',')

看一下info

df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   income  6 non-null      float64
dtypes: float64(1)

往下繼續


df2.describe()

	    income
count	6.000000
mean	16934.983333
std	40695.203980
min	0.000000
25%	32.425000
50%	300.000000
75%	875.000000
max	100000.000000

一切正常!

pandas.read_csv()引數

pandas.read_csv()的引數特別多，除了filepath，其他均可預設。引數的具體含義這裡就不贅述，還想複習一下的同學可以直接去看官方文件

http://pandas.pydata.org/pandas-docs/stable/io.html

英語不好的同學可以看一下熱心博主的翻譯版：
https://www.cnblogs.com/datablog/p/6127000.html

Pandas read_csv 引數詳解
2024-04-25
小心，別被eureka坑了
2021-04-14
被mybatis一級快取坑了
2022-02-01
MyBatis快取
ThreadLocal原理記錄，別被坑了！！
2020-12-10
thread
mybatis plus很好，但是我被它坑了！
2023-10-31
MyBatis
被vector動態擴容給坑了！
2022-03-12
Python之pandas：pandas中to_csv()、read_csv()函式的index、index_col引數詳解之詳細攻略
2020-10-27
Python函式Index
哎，被這個叫做at least once的玩意坑麻了。
2024-06-17
AST
面試Go 被defer的幾個盲區坑了
2023-03-06
面試Go
js到底需不需要寫分號(;), 我被坑了，該長記性了
2019-01-03
JS
進步神速，Pandas 2.1來了！
2023-09-19
演算法金 | 來了，pandas 2.0
2024-07-11
演算法
想換坑了有沒有坑位
2020-06-08
又踩坑了！BigDecimal使用的5個坑！
2024-04-12
Decimal
別找了，這是 Pandas 最詳細教程了
2020-04-06
建立 UIWindow 被忽視的一個坑
2018-12-07
UI
“房間裡的大象”暴露AI巨坑，AI視覺系統被誇噓過頭了？
2018-12-12
AI視覺
我被刪庫了
2021-04-06
快取把我坑慘了..
2024-03-14
快取
ASML還是被低估了？
2021-06-21
ASM
技術小菜比入坑 LinkedList，i 了 i 了
2020-07-19
Pandas之:Pandas簡潔教程
2021-06-05
寫程式碼被大語言模型坑之使用LocalDateTime比較兩個時間差了幾天
2024-10-23
模型LDA
蒼了個天了~網站被掛馬！
2019-02-26
網站
Pandas
2024-10-22
用實數作為 HashMap 的key，被坑哭了
2023-11-19
HashMap
Pandas - pandas.Series.pipe 函式
2024-03-13
函式
Pandas進階貳 pandas基礎
2020-12-20
今天踩了一個基礎坑
2022-02-14
時區的坑，別再踩了！
2022-03-19
Mybatis的<if>標籤的坑，0會被過濾掉？
2024-08-05
MyBatis
新手如何選106簡訊平臺才能避免被坑？
2021-07-14
pandas使用
2018-09-27
Pandas Series
2019-02-07
pandas（四）
2019-02-20
python pandas
2024-08-15
Python
2019年，TensorFlow被拉下馬了嗎？
2019-04-05
完蛋！我被 Out of Memory 包圍了！
2023-11-10

被 Pandas read_csv 坑了

被 Pandas read_csv 坑了

翻船記

pandas.read_csv()引數

相關文章