資深專家分享:從numpy開啟Python資料科學之旅!
【本文轉載自微信公眾號:資料科學家養成記,作者:louwill,轉載授權請聯絡原作者】
目前小編的Python學習是按照兩個路徑在一路往下推,希望藉此改變過去大半年的Python一直在入門的狀態。一個路徑就是從純程式語言的角度來學習Python的,包括Python程式設計基礎、編寫函式、Python高階特性、函數語言程式設計、物件導向程式設計、多程式和多執行緒、常用內建模組和第三方庫等等,旨在學習和鍛鍊程式設計思維,提高小編自身的coding能力。另一個路徑是按照資料科學的角度來學習Python,這條路徑是想將R語言的資料處理和分析能力搬到Python上,主要是學習一些可用於資料分析的Python庫,包括NumPy、Pandas、SciPy、Matplotlib、Seaborn和scikit-learn等等。
第一個路徑學習所使用的資料是廖雪峰老師Python3教程 廖雪峰Python3教程 。
第二個路徑的學習資料主要來自Python的幫助文件和Wes McKinney的Python for Data Analysis 一書。各位看官可自行去網上尋找一下這本Python資料分析入門書籍。 先簡單介紹了下小編學習Python主要方法和參考資料,很明顯今天的主題numpy是屬於第二個路徑的內容,下面就開始進入今天的正題。
NumPy簡介
NumPy是Python中科學計算庫,其主要物件是包含同種元素的多維陣列。在NumPy中陣列的維度也叫做軸(axis),軸的個數叫做秩(rank)。小編在這裡有必要跟大家提醒一下,線性代數真的是一門很重要的數學基礎課程,認真學好並精通真的是太重要了。
本文小編主要從如何利用numpy建立一個陣列物件、列印陣列、numpy物件的基本運算和線性代數運算、陣列的索引與切片、變換陣列形狀等方面來介紹numpy。
建立一個numpy物件
利用numpy建立陣列物件方法很多,但最常用的還是 array方法和 arange方法。 先看利用 arange方法建立的陣列物件:
-
#arange方法建立一個陣列
-
-
import numpy as np
-
-
a = np.arange(15).reshape(3,5)
-
-
a
-
-
array([[ 0, 1, 2, 3, 4],
-
-
[ 5, 6, 7, 8, 9],
-
-
[10, 11, 12, 13, 14]])
-
-
#arange()建立陣列的另一種方式
-
-
np.arange(10,30,5)
-
- array([10, 15, 20, 25])
再看array方法:
-
#array方法建立一個陣列
-
-
b = np.array([6,7,8])
-
-
b
-
- array([6, 7, 8])
-
#檢視陣列維度
-
a.shape
-
-
(3, 5)
-
-
#檢視陣列軸的個數
-
-
a.ndim
-
-
2
-
#檢視陣列物件元素型別
-
a.dtype
-
-
dtype('int32')
-
-
#檢視物件型別
-
-
type(a)
-
-
numpy.ndarray
-
-
type(b)
-
- numpy.ndarray
可以看到numpy陣列類為ndarray。 我們也可以在建立陣列的時候就指定元素型別:
-
#在陣列建立時就指定dtype
-
- c = np.array([[1,2],[3,4]], dtype = complex)
-
-
c
-
- array([[ 1.+0.j,2.+0.j],
-
- [ 3.+0.j,4.+0.j]])
還可以利用一些基礎函式來建立陣列:
-
#建立全零矩陣
-
- np.zeros((3,4))
-
- array([[ 0.,0.,0.,0.],
-
- [ 0.,0.,0., 0.],
-
- [ 0.,0.,0.,0.]])
-
-
#建立全一矩陣
-
- np.ones((3,4))
-
- array([[ 1.,1.,1.,1.],
-
- [ 1.,1.,1.,1.],
-
- [ 1.,1.,1.,1.]])
列印陣列
從上面的演示大家應該也可以看到,在Python中直接輸入陣列物件後返回的是一個帶有array字樣的物件,但使用 print函式對陣列物件進行列印顯示的結果就不會有這個字樣了:
-
#一維陣列列印成行
-
- x = np.arange(5)
-
-
print
-
(x)
-
- [0 1 2 3 4]
-
-
#二維陣列列印成矩陣
-
- y = np.arange(10).reshape(2,5)
-
-
print
-
(y)
-
- [[0 1 2 3 4]
-
- [5 6 7 8 9]]
-
-
#三維陣列列印成矩陣列表
-
- z = np.arange(24).reshape(2,3,4)
-
-
print
-
(z)
-
- [[[ 0 1 2 3]
-
- [ 4 5 6 7]
-
- [ 8 9 10 11]]
-
-
- [[12 13 14 15]
-
- [16 17 18 19]
- [20 21 22 23]]]
陣列的基本運算
既然numpy是科學計算庫,它的進行一些計算也是非常強大的:
-
#numpy陣列物件是按照對應進行運算的
-
- a = np.array([10,20,30,40])
-
- b = np.arange(10,30,5)
-
-
c = a - b
-
-
c
-
- array([ 0,5,10,15])
-
-
-
b **
-
2
-
- array([100,225,400,625], dtype=int32)
-
-
- a < 35
-
- array([ True,True,True,False], dtype=bool)
-
-
#numpy中*按元素進行運算,矩陣乘法使用dot函式
-
- a = np.array([[1,1],[0,1]])
-
- b = np.array([[2,0],[3,4]])
-
-
a * b
-
- array([[2,0],
-
- [0, 4]])
-
-
np.dot(a,b)
-
- array([[5,4],
-
- [3,4]])
可見,Python矩陣的計算採用的是點乘的方式,跟matlab較為相似。 除了直接的四則運算,還可以複雜一點:
-
#*=/+=等符號用來更改已存在的陣列而不是建立一個新的陣列
-
- a *= 3
-
-
a
-
- array([[3,3],
-
- [0,3]])
-
-
b += a
-
#b=b+a
-
-
b
-
- array([[ 8,6],
-
- [ 3,10]])
-
-
#axis引數對陣列指定軸進行運算
-
- c = np.arange(12).reshape(3,4)
-
-
c
-
- array([12,15,18,21])
-
-
#對陣列每行取最小值
-
- c.min(axis = 1)
-
- array([[ 0,1,2,3],
-
- [ 4,5,6,7],
- [8,9,10,11]])
-
-
#對陣列每列進行求和計算
-
- c.sum(axis = 0)
-
- array([12,15,18,21])
-
-
#numpy也提供一些通用的數學計算函式
-
- b = np.arange(5)
-
-
np.exp(b)
-
- array([ 1. , 2.71828183,7.3890561 ,20.08553692,54.59815003])
-
-
np.sqrt(b)
-
- array([ 1. ,2.71828183,7.3890561 ,20.08553692,54.59815003])
利用numpy進行線性代數運算也是非常方便的:
-
import
-
numpy
-
as
-
np
-
-
from
-
numpy.linalg
-
import
-
*
-
- a = np.array([[1,2],[3,4]])
-
-
print
-
(a)
-
- [[1 2]
-
- [3 4]]
-
-
#求轉置
-
-
a.transpose()
-
- array([[1,3],
-
- [2,4]])
-
-
#求逆
-
-
inv(a)
-
- array([[-2. ,1. ],
-
- [ 1.5, -0.5]])
-
-
#生成單位陣
-
- np.eye(3)
-
- array([[ 1.,0.,0.],
-
- [ 0.,1.,0.],
-
- [ 0.,0.,1.]])
-
-
#求跡
-
-
np.trace(a)
-
-
5
-
-
#求解矩陣方程
-
- y = np.array([[5],[7]])
-
-
solve(a,y)
-
- array([[-3.],
-
- [ 4.]])
關於numpy的簡單運算小編就例舉這麼多,細加探索numpy遠比你想象的要強大。
陣列物件的索引與切片
關於切片的知識,小編在之前的Python學習的第一條路徑中就已介紹過了,主要是針對list和tuple物件,將索引和切片應用在陣列上也是非常方便的。
- a = np.arange(10)**2
- a
-
- array([ 0,1,4,9,16,25,36,49,64,81], dtype=int32)
-
-
#訪問一個數
-
- a[3]
-
-
9
-
-
#訪問一串數
-
- a[2:5]
-
- array([ 4,9,16], dtype=int32)
-
-
#按索引替換元素
-
- a[:6:2] =2017
-
-
a
-
- array([2017,1,2017,9,2017,25,36,49,64,81], dtype=int32)
-
-
#給陣列反向呈現
-
- a[::-1]
-
- array([ 81,64,49,36,25,2017,9,2017,1,2017], dtype=int32)
-
-
#多維陣列對每個軸都可以進行索引
-
-
def
-
f(x,y):
-
-
-
return
- x*3+2*y
-
- b = np.fromfunction(f,(5,4),dtype = int)
-
-
b
-
- array([[ 0,2,4,6],
-
- [ 3,5,7,9],
-
- [ 6,8,10,12],
-
- [ 9,11,13,15],
-
- [12,14,16,18]])
-
- b[2,3]
-
-
12
-
- b[0:5,1]
-
- array([ 2,5,8,11,14])
-
-
#當少於軸數的索引被提供時,則被預設為取整個切片
-
- b[-1]
-
- array([12,14,16,18])
更改陣列形狀
最後一個需要給大家介紹的是對陣列形狀進行更改:
- a = np.arange(10,110,10).reshape(2,5)
-
-
a
-
- array([[ 10,20,30,40,50],
-
- [ 60,70,80,90,100]])
-
-
a.shape
-
- (2,5)
-
-
#展開陣列
-
-
a.ravel()
-
- array([ 10,20,30,40,50,60,70,80,90,100])
-
-
#reshape函式僅改變引數形狀,而resize函式則改變陣列本身
-
- a.resize(5,2)
-
-
a
-
- array([[ 10,20],
-
- [ 30,40],
-
- [ 50,60],
-
- [ 70,80],
-
- [ 90,100]])
可見reshape方法與resize方法還是有著本質的區別。
numpy總結
1.建立陣列 arange, array, copy, empty, emptylike, eye, fromfile, fromfunction, identity, linspace, logspace, mgrid, ogrid, ones, oneslike, r , zeros, zeros_like
2.轉化 astype, atleast 1d, atleast 2d, atleast 3d, mat
3.操作 array split, column stack, concatenate, diagonal, dsplit, dstack, hsplit, hstack, item, newaxis, ravel, repeat, reshape, resize, squeeze, swapaxes, take, transpose, vsplit, vstack
4.詢問 all, any, nonzero, where
5.排序 argmax, argmin, argsort, max, min, ptp, searchsorted, sort
6.運算 choose, compress, cumprod, cumsum, inner, fill, imag, prod, put, putmask, real, sum
7.基礎統計和線性代數 cov, mean, std, var, cross, dot, outer, svd, vdot, eye, transpose, inv, trace
參考資料:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2157270/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【Python資料科學】之NumpyPython資料科學
- 初創公司資料科學專案全流程指南,一位資深資料科學家的經驗談資料科學
- DataSpell 2023:專注於資料,加速您的資料科學之旅 mac/win啟用版資料科學Mac
- 美國資深資料科學家暢聊:資料分析與北美電商資料科學
- 【資料科學家】如何成為一名資料科學家?資料科學
- 資料工程師、掌握資料分析,成為資料科學家、資料庫遷移專家工程師資料科學資料庫
- 資料分析師、資料科學家、大資料專家三個職位的區別資料科學大資料
- Web開發與資料科學家:誰在統治Python世界?Web資料科學Python
- 想做資料科學家/工程師?從零開始系統規劃大資料學習之路資料科學工程師大資料
- 專業資料科學家的IDE:DataSpell for mac v2023.2.4啟用版資料科學IDEMac
- 每週一書《Python資料科學手冊》分享!Python資料科學
- 進階指南:如何從資料分析師轉型為資料科學家?資料科學
- Python機器學習 5個資料科學家案例解析Python機器學習資料科學
- Python資料分析 – numpyPython
- 你與資料科學家只差這26條python技巧資料科學Python
- Python或將成資料科學家首選語言Python資料科學
- 私藏!資深資料專家SQL效率最佳化技巧 ⛵SQL
- Python 資料科學之 PandasPython資料科學
- 本週Github上資料科學Python有趣專案Github資料科學Python
- 資料科學家已死?AutoML使得資料科學更加普及化 - enterpriseai資料科學TOMLAI
- 業界 | 資料科學家“恐怖故事”資料科學
- 資料科學家的命令列技巧資料科學命令列
- 如何成為資料科學家? - kdnuggets資料科學
- 公民資料科學家的侷限性資料科學
- Python資料分析之numpyPython
- DataSpell 2023:資料科學家的專業整合開發環境mac/win版資料科學開發環境Mac
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- 年薪20W+的資料科學家有哪些必備技能?先從Python資料分析開始!資料科學Python
- 用 Python 入門資料科學Python資料科學
- 為什麼資料科學家應該開始學習Swift?資料科學Swift
- 什麼是真正的敏捷開發?阿里資深技術專家內部分享公開敏捷阿里
- JetBrains DataSpell 2024.2 (macOS, Linux, Windows) - 專業資料科學家的 IDEAIMacLinuxWindows資料科學IDE
- DataSpell 2023 mac中文版專業資料科學家的IDEMac資料科學IDE
- Spotify如何改進資料科學家的資料發現?資料科學
- 資料科學家最需要什麼技能?資料科學
- 資料科學家需要的基礎技能資料科學
- 什麼是全棧資料科學家?全棧資料科學
- Python資料分析 numpy 筆記Python筆記