【Pandas】簡單介紹

zi_ying123發表於2020-11-14

 

Pandas(panel data & Data Analysis):Python資料分析庫。

基於Numpy的,專用於資料分析Python第三方庫,最適用於處理大型結構化表格資料

  • Pandas最初是對衝基金公司開發出來做金融量化資料分析的Python庫
  • Pandas借鑑了R的資料結構
  • Pandas基於Numpy搭建,支援Numpy中定義的大部分計算
  • Pandas提供了大量和其他技術互動的介面(比如IO工具 (CSV, XLSX, HDF5, ...),視覺化(封裝pyplot),方便和其他語言技術的互動和功能擴充套件
  • Pandas底層用Cython和C做了速度優化,極大提高了執行效率

Pandas庫的資料型別:

  • Series 一維
  • DataFrame 二維,Series容器,最常用
  • Panel 三維,DataFrame容器

Python的list列表,Numpy的ndarray陣列和Pdandas的Series

  • list:Python自帶資料型別,功能簡單,操作複雜,效率低
  • ndarray(Numpy):基礎資料型別,關注資料結構/運算/維度(資料間關係)
  • Series(DataFrame):擴充套件資料型別,關注資料實際應用,資料與索引的關係

三種資料型別的區別

  • list/Series/DataFrame的值型別可以不同,ndarray的值型別必須相同
  • 從實用性、功能強弱和和可操作性比較:list < ndarray < Series(DataFrame),實踐中儘量使用Pandas資料型別。

Pdandas資料型別例子:

import pandas as pd #載入pandas庫

se = pd.Series([2,4,6,8,10]) # 建立Series資料型別

da = pd.DataFrame([ # 建立DataFrame資料型別
    [2,4,6,8,10],
    [12,14,16,18,20]
])

se
da