Python資料分析--工具安裝及Numpy介紹(1)

PursuitingPeak發表於2022-05-19

Anaconda 是一個跨平臺的版本,通過命令列來管理安裝包。進行大規模資料處理、預測分析和科學計算。它包括近 200 個工具包,大資料處理需要用到的常見包有 NumPy 、 SciPy 、 pandas 、 IPython 、 Matplotlib 、 Scikit-learn 、statsmodels、gensim、nltk、networkx、beautifulsoup4和statsmodels 等。
可以直接通過命令進行安裝。如下圖,分別安裝上述相關檔案(示例安裝pandas,其他類似)。

一、NumPy(Numerical Python)

    NumPy是 Python 語言的一個擴充套件程式庫,支援大量的維度陣列與矩陣運算,也針對陣列運算提供大量的數學函式庫。NumPy 為開放原始碼並且由許多協作者共同維護開發,是一個執行速度非常快的數學庫,用於陣列計算。

     NumPy 通常與 SciPy(Scientific Python)和 Matplotlib(繪相簿)一起使用,可廣泛用於替代 MatLab,是一個強大的科學計算環境,便於後期學習資料科學和者機器學習。 SciPy 是一個開源的 Python 演算法庫和數學工具包, 包含的模組有最優化、線性代數、積分、插值、特殊函式、快速傅立葉變換、訊號處理和影像處理、常微分方程求解和其他科學與工程中常用的計算。 

Matplotlib 是 Python 程式語言及其數值數學擴充套件包 NumPy 的視覺化操作介面,是為利用通用的圖形使用者介面工具包,如 Tkinter, wxPython, Qt 或 GTK+ 嚮應用程式嵌入式繪圖提供了應用程式介面(API),前期在資料視覺化中做作過簡單的介紹。

1、numpy中的陣列操作及程式碼

NumPy中的ndarray是一個多維陣列物件,該物件由兩部分組成:實際的資料和描述這些資料的後設資料,大部分的陣列操作僅僅修改後設資料部分。

import numpy as np  #匯入numpy包,並另命令為np

a = np.arange(5)  # 呼叫numpy中的函式arange,函式建立陣列
print(a.dtype)   # 列印出陣列a的資料型別
print(a.shape)  #陣列的 shape 屬性返回一個元組(tuple),元組中的元素即為NumPy陣列每一個維度上的大小
print('\n')
#建立多維陣列
m = np.array([np.arange(5), np.arange(5)]) #列表作為引數傳給array函式,從而建立了一個5×2的陣列
print(m)

#選取陣列元素
print(m[0,0])
print(m[0,1])
print(m[1,1])
print(m[1,2])
print(m[1,3])

# NumPy 自定義的異構資料型別,該資料型別包括一個用字串記錄的名字、一個用
# 整數記錄的數字以及一個用浮點數記錄的價格 
t = np.dtype([('name', np.str_, 40), ('numitems', np.int32), ('price',np.float32)])
print(t)

# 一維陣列的索引和切片
a = np.arange(9)
print(a[3:7])
print('\n')
#多維陣列的切片和索引
b = np.arange(24).reshape(2,3,4)  #reshape函式的作用是改變陣列的“形狀”,也就是改變陣列的維度
#其引數為一個正整數元組,分別指定陣列在每個維度上的大小

print(b.shape)
print('\n')
print(b)
print('\n')
print(b[0])
print('\n')
print(b[:,0,0]) #下標用英文標點的冒號:來代替,表示不限該位置的引數,即列印出b的第1行,第1列的所有元組的資料。

執行結果如下:

至於具體更詳細的用法,可以多試試。

二、numpy改變陣列的維度

上述的reshape函式可以將一維陣列[0,1,2,...,23]轉變為具有2個元素,每個元素是一個二維陣列的三維陣列,同樣,也可以將多維陣列轉變為一維陣列(將陣列展平)。

可以用 ravel 等函式完成相關操作,見如下程式碼:

import numpy as np  #匯入numpy包,並另命令為np

c = np.array([   #先定義一個numpy的多維陣列
    [[0,1,2,3],[4,5,6,7],[8,9,10,11]],
    [[12,13, 14,15],[16,17,18,19],[20,21,22,23]]
     ])
e=d=c  
print (c.ravel())
print('\n')
print(c.flatten())
print('\n')
#用元組設定維度
d.shape = (6,4)
print(d)
print('\n')
# transpose用於轉置,即行列互換,即線性代數中的轉置矩陣
print(e.transpose())

執行結果:

三、陣列的組合

NumPy陣列有水平組合、垂直組合和深度組合等多種組合方式,使用 vstack 、dstack 、 hstack 、 column_stack 、 row_stack 以及 concatenate 等函式來完成陣列的組合。

import numpy as np  #匯入numpy包,並另命令為np

a = np.arange(9).reshape(3,3)#定義a為3行3列的二維陣列
b=2*a #定義b,且b的每個元素均為a的兩倍。

print(a)  #列印出a數列
print('\n')
print(b) #列印出b數列
print('\n')

執行結果:

[[0 1 2]
 [3 4 5]
 [6 7 8]]


[[ 0  2  4]
 [ 6  8 10]
 [12 14 16]] 

分別看一下組合後的執行結果,程式碼如下:

import numpy as np  #匯入numpy包,並另命令為np

a = np.arange(9).reshape(3,3)   #定義a為3行3列的二維陣列
b=2*a  #定義b,且b的每個元素均為a的兩倍,陣列結構與a一致。

#水平組合:將ndarray物件構成的元組作為引數,傳給hstack 函式
print(np.hstack((a, b)))  #水平組合
print('\n')
print(np.concatenate((a, b), axis=1))  #注意axis引數
print('\n')
#垂直組合
print(np.vstack((a, b)))
print('\n')
print(np.concatenate((a, b), axis=0))#注意axis=0是預設值,即可以不設定。
print('\n')

執行結果如下:

很明顯,上述函式np.hstack((a,b))的結果顯示為將a的行與b的行連成一個更長的行(np.concatenate()函式一樣,只是多了一個引數),相當於增加了陣列的列數。

而np.vstack((a,b)),則是結合成具有更多的行,而列數不變。用二維表示如下:

                                             

接下來看一下深度組合、列組合、行組合

import numpy as np  #匯入numpy包,並另命令為np

a = np.arange(9).reshape(3,3)   #定義a為3行3列的二維陣列
b=2*a  #定義b,且b的每個元素均為a的兩倍,陣列結構與a一致。

#深度組合 將相同的元組作為引數傳給 dstack
print(np.dstack((a, b)))
print('\n')

#列組合
print(np.column_stack((a, b)))#對於二維陣列,column_stack 與hstack的效果是相同
print('\n') 
# 行組合
print(np.row_stack((a,b)))#對於二維陣列,column_stack與vstack 的效果是相同

 

從上可以看出,深度組合,就是將一系列陣列沿著縱軸(深度)方向進行層疊組合,比如這裡只有2個陣列a和b,所以深度只有2,由於a和b都是3*3,就形成如下結果:

二維陣列中,行組合和列組合與水平組合、垂直組合一樣,不作過多介紹。

四、陣列的分割

陣列能組合 ,當然也能分割成多個子陣列。像組合一樣,也可分為水平分割、垂直分割、深度分割。

1、水平分割 和垂直分割

import numpy as np  #匯入numpy包,並另命令為np

a = np.array([[0, 1, 2],[3, 4, 5],[6, 7, 8]]) #定義一個多維陣列
#水平分割
print(np.hsplit(a,3))  #hsplit把陣列沿著水平方向分割為3個相同大小的子陣列
# 或者
print(np.split(a,3,axis=1)) #同hsplit

#垂直分割
print(np.vsplit(a,3))  #vsplit把陣列沿著垂直方向分割為3個相同大小的子陣列
# 或者
print(np.split(a,3,axis=0)) #同vsplit,注意引數

執行結果:

整理後,得到:[array([[0],[3],[6]]), array([[1], [4],[7]]), array([[2],[5],[8]])]也就是將0,3,6歸為一組,注意:都是分別用"[ ]"和","分開的。

2、深度分割

import numpy as np  #匯入numpy包,並另命令為np

c = np.array(np.arange(27).reshape(3, 3, 3))  #建立一個多維陣列,並設定
print(np.dsplit(c,3)) 

執行結果如下:

[array([[[ 0],[ 3],[ 6]],[[ 9],[12],[15]],[[18],[21],[24]]]),

array([[[ 1],[ 4],[ 7]],[[10],[13],[16]],[[19],[22],[25]]]),

array([[[ 2],[ 5],[ 8]],[[11],[14],[17]],[[20],[23],[26]]])

]

生成的C陣列為 : 

 這三塊資料應該像紙張一樣疊加的,0,3,6的下一層對應的是9,12,15,再下一層是18,21,24。

五、Numpy陣列的其他屬性

在開始的程式碼中有 .dtype和 .shape分別是陣列的兩個不同的屬性,除此之外,還有其他屬性,如下:

import numpy as np  #匯入numpy包,並另命令為np

a = np.array([[0, 1, 2],[3, 4, 5],[6, 7, 8]]) #定義一個多維陣列
print(a.dtype)    #陣列a的資料型別
print(a.shape)    #陣列a的維數
print(a.ndim)     #給出陣列的維數,或陣列軸的個數
print(a.size)     #給出陣列元素的總個數
print(a.itemsize) #元素在記憶體中所佔的位元組數
print(a.nbytes)   #元素在記憶體中所佔的儲存空間,itemsize和size屬性值的乘積

#複數的表示
b =  np.array([1.j + 1, 2.j + 3])
print(b.real)#列印實數
print(b.imag)#列印虛數部分

c = np.arange(4).reshape(2,2)

print(c)

f = c.flat   #flat屬性,可以像遍歷一維陣列一樣去遍歷任意的多維陣列
for item in f :
    print(item)
    
#或者獲取多個元素
print( c.flat[[1,3]])
#flat 屬性是一個可賦值的屬性。對flat屬性賦值將導致整個陣列的元素都被覆蓋
c.flat=5   # 對flat屬性賦值將導致整個陣列的元素都被覆蓋
print(c)

b =  np.array([1.j + 1, 2.j + 3])  # 陣列的轉換
print( b.tolist())

print( b.astype(int)) #astype 函式可以在轉換陣列時指定資料型別int

執行結果如下:

小結:

上述列舉了許多有關NumPy的基礎知識:資料型別和NumPy陣列。類似於Python列表,NumPy陣列也可以方便地進行切片和索引操作。但在多維陣列上,NumPy有明顯的優勢。
對涉及改變陣列維度的操作有很多種——組合、調整、設定維度和分割等,列舉了實用函式進行了說明。

相關文章