python關於Error tokenizing data. C error: Expected 10 fields in line 30, saw 31可能出現的問題

宇銓發表於2020-11-30

今天使用pd.read_csv()出現了錯誤

pd.read_csv(file.txt,encoding='utf-8',header=None,sep='Σ')

Error tokenizing data. C error: Expected 10 fields in line 30, saw 31
按照其意思是,資料第十行列數原本是30的,現在出現了31;但我在原資料中認真對比了一些,發現列數並沒有發生變化。於是我提取了資料的前九行

pd.read_csv(file.txt,nrows = 9,encoding='utf-8',header=None,sep='Σ')

發現出現了第二個錯誤
UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0xe6 in position 0: unexpected end of data
於是我意識到,並非是資料本身有問題,而是utf-8無法完全解析‘Σ’這一個分隔符導致出現的問題
在此記錄一下。

相關文章