NumPy之:使用genfromtxt匯入資料

flydean發表於2021-05-08

原文網址 : https://www.cnblogs.com/flydean/p/14743670.html

簡介

在做科學計算的時候，我們需要從外部載入資料，今天給大家介紹一下NumPy中非常有用的一個方法genfromtxt。genfromtxt可以分解成兩步，第一步是從檔案讀取資料，並轉化成為字串。第二步就是將字串轉化成為指定的資料型別。

genfromtxt介紹

先看下genfromtxt的定義：

numpy.genfromtxt(fname, dtype=<class 'float'>, comments='#', delimiter=None, skip_header=0, skip_footer=0, converters=None, missing_values=None, filling_values=None, usecols=None, names=None, excludelist=None, deletechars=" !#$%&'()*+, -./:;<=>?@[\]^{|}~", replace_space='_', autostrip=False, case_sensitive=True, defaultfmt='f%i', unpack=None, usemask=False, loose=True, invalid_raise=True, max_rows=None, encoding='bytes')

genfromtxt可以接受多個引數，這麼多引數中只有fname是必須的引數，其他的都是可選的。

fname可以有多種形式，可以是file, str, pathlib.Path, list of str, 或者generator。

如果是單獨的str，那麼預設是本地或者遠端檔案的名字。如果是list of str，那麼每個str都被當做檔案中的一行資料。如果傳入的是遠端的檔案，這個檔案會被自動下載到本地目錄中。

genfromtxt還可以自動識別檔案是否是壓縮型別，目前支援兩種壓縮型別：gzip 和 bz2。

接下來我們看下genfromtxt的常見應用：

使用之前，通常需要匯入兩個庫：

from io import StringIO
import numpy as np

StringIO會生成一個String物件，可以作為genfromtxt的輸入。

我們先定義一個包含不同型別的StringIO:

s = StringIO(u"1,1.3,abcde")

這個StringIO包含一個int,一個float和一個str。並且分割符是 ,。

我們看下genfromtxt最簡單的使用：

In [65]: data = np.genfromtxt(s)

In [66]: data
Out[66]: array(nan)

因為預設的分隔符是delimiter=None，所以StringIO中的資料會被作為一個整體轉換成陣列，結果就是nan。

下面我們新增一個逗號分割符：

In [67]: _ = s.seek(0)

In [68]: data = np.genfromtxt(s,delimiter=",")

In [69]: data
Out[69]: array([1. , 1.3, nan])

這次有輸出了，但是最後一個字串因為不能被轉換成為float，所以得到了nan。

注意，我們第一行需要重置StringIO的指標到檔案的開頭。這裡我們使用 s.seek(0)。

那麼怎麼把最後一個str也進行轉換呢？我們需要手動指定dtype：

In [74]: _ = s.seek(0)

In [75]: data = np.genfromtxt(s,dtype=float,delimiter=",")

In [76]: data
Out[76]: array([1. , 1.3, nan])

上面我們指定了所有的陣列型別都是float，我們還可以分別為陣列的每個元素指定型別：

In [77]: _ = s.seek(0)

In [78]: data = np.genfromtxt(s,dtype=[int,float,'S5'],delimiter=",")

In [79]: data
Out[79]: array((1, 1.3, b'abcde'), dtype=[('f0', '<i8'), ('f1', '<f8'), ('f2', '<U')])

我們分別使用int，float和str來對檔案中的型別進行轉換,可以看到得到了正確的結果。

除了指定型別，我們還可以指定名字，上面的例子中，我們沒有指定名字，所以使用的是預設的f0,f1,f2。看一個指定名字的例子：

In [214]: data = np.genfromtxt(s, dtype="i8,f8,S5",names=['myint','myfloat','mystring'], delimiter=",")

In [215]: data
Out[215]:
array((1, 1.3, b'abcde'),
      dtype=[('myint', '<i8'), ('myfloat', '<f8'), ('mystring', 'S5')])

分隔符除了使用字元之外，還可以使用index：

In [216]: s = StringIO(u"11.3abcde")
In [217]: data = np.genfromtxt(s, dtype=None, names=['intvar','fltvar','strvar'],
     ...:  delimiter=[1,3,5])

In [218]: data
Out[218]:
array((1, 1.3, b'abcde'),
      dtype=[('intvar', '<i8'), ('fltvar', '<f8'), ('strvar', 'S5')])

上面我們使用index作為s的分割。

多維陣列

如果資料中有換行符，那麼可以使用genfromtxt來生成多維陣列：

>>> data = u"1, 2, 3\n4, 5, 6"
>>> np.genfromtxt(StringIO(data), delimiter=",")
array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.]])

autostrip

使用autostrip 可以刪除資料兩邊的空格：

>>> data = u"1, abc , 2\n 3, xxx, 4"
>>> # Without autostrip
>>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5")
array([['1', ' abc ', ' 2'],
       ['3', ' xxx', ' 4']], dtype='<U5')
>>> # With autostrip
>>> np.genfromtxt(StringIO(data), delimiter=",", dtype="|U5", autostrip=True)
array([['1', 'abc', '2'],
       ['3', 'xxx', '4']], dtype='<U5')

comments

預設的comments 是 # ，資料中所有以# 開頭的都被看做是註釋。

>>> data = u"""#
... # Skip me !
... # Skip me too !
... 1, 2
... 3, 4
... 5, 6 #This is the third line of the data
... 7, 8
... # And here comes the last line
... 9, 0
... """
>>> np.genfromtxt(StringIO(data), comments="#", delimiter=",")
array([[1., 2.],
       [3., 4.],
       [5., 6.],
       [7., 8.],
       [9., 0.]])

跳過行和選擇列

可以使用skip_header 和 skip_footer 來跳過返回的陣列特定的行：

>>> data = u"\n".join(str(i) for i in range(10))
>>> np.genfromtxt(StringIO(data),)
array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9.])
>>> np.genfromtxt(StringIO(data),
...               skip_header=3, skip_footer=5)
array([ 3.,  4.])

可以使用usecols 來選擇特定的行數：

>>> data = u"1 2 3\n4 5 6"
>>> np.genfromtxt(StringIO(data), usecols=(0, -1))
array([[ 1.,  3.],
       [ 4.,  6.]])

如果列還有名字的話，可以用usecols 來選擇列的名字：

>>> data = u"1 2 3\n4 5 6"
>>> np.genfromtxt(StringIO(data),
...               names="a, b, c", usecols=("a", "c"))
array([(1.0, 3.0), (4.0, 6.0)],
      dtype=[('a', '<f8'), ('c', '<f8')])
>>> np.genfromtxt(StringIO(data),
...               names="a, b, c", usecols=("a, c"))
    array([(1.0, 3.0), (4.0, 6.0)],
          dtype=[('a', '<f8'), ('c', '<f8')])

本文已收錄於 http://www.flydean.com/06-python-numpy-genfromtxt/

最通俗的解讀，最深刻的乾貨，最簡潔的教程，眾多你不知道的小技巧等你來發現！

歡迎關注我的公眾號:「程式那些事」,懂技術，更懂你！

Python資料分析之numpy
2018-07-23
Python
NumPy之:資料型別
2021-04-23
資料型別
sqoop用法之mysql與hive資料匯入匯出
2020-12-22
OOPMySqlHive
Oracle使用資料泵expdp,impdp進行資料匯出匯入
2018-04-04
Oracle
JS之實現Excel資料匯入
2024-09-04
JSExcel
mongodb使用自帶命令工具匯出匯入資料
2023-04-24
MongoDB
使用Dbeaver 進行資料的匯入和匯出
2021-08-28
使用VUE+SpringBoot+EasyExcel 整合匯入匯出資料
2022-05-14
VueSpring BootExcel
【Python資料科學】之Numpy
2019-04-29
Python資料科學
使用Oracle SQL Developer匯入Excel資料
2018-07-26
OracleSQLDeveloperExcel
資料庫 MySQL 資料匯入匯出
2021-08-10
資料庫MySql
[Docker核心之容器、資料庫檔案的匯入匯出、容器映象的匯入匯出]
2021-06-24
Docker資料庫
sqoop資料匯入匯出
2018-09-10
OOP
Oracle 資料匯入匯出
2018-06-14
Oracle
資料泵匯出匯入
2019-02-01
Oracle資料匯入匯出
2024-07-23
Oracle
phpMyAdmin匯入/匯出資料
2024-11-27
PHP
Numpy使用入門
2018-06-26
使用csv批量匯入、匯出資料的需求處理
2020-09-30
大文字資料，匯入匯出到資料庫
2018-08-28
資料庫
NumPy之:資料型別物件dtype
2021-04-30
資料型別物件
Python資料分析與展示之『Numpy』
2020-12-25
Python
MySQL入門--匯出和匯入資料
2019-06-04
MySql
MATLAB匯入資料
2020-10-11
Matlab
資料匯入終章：如何將HBase的資料匯入HDFS？
2018-10-15
PyTorch資料和NumPy資料之間的互操作
2020-12-05
PyTorch
Anaconda3-大資料之Numpy(1)
2019-04-12
大資料
Mongodb資料的匯出與匯入
2018-10-30
MongoDB
oracle資料匯出匯入（exp/imp）
2018-05-30
Oracle
匯入和匯出AWR的資料
2018-06-10
EasyPoi, Excel資料的匯入匯出
2020-10-01
Excel
Mysql 資料庫匯入與匯出
2024-06-15
MySql資料庫
Excel 表匯入資料
2019-06-01
Excel
MySQL資料的匯入
2024-10-17
MySql
Oracle 資料匯入Excel
2022-06-11
OracleExcel
mysqlimport 資料匯入程式
2022-03-17
MySqlImport
Oracle資料庫匯入匯出。imp匯入命令和exp匯出命令
2022-03-01
Oracle資料庫
pycharm如何匯入第三方庫？pycharm如何匯入numpy庫？pycharm如何匯入scikit-learn庫？
2019-01-11
PyCharm