Pandas基礎
一、檔案的讀取和寫入
1.檔案讀取
pd.read_csv(’ ‘)
pd.read_excel(’ ‘)
pd.read_table(’ ')
注:header=None表示第一行不作為列名,index_col表示把某一列或幾列作為索引,索引的內容將會在第三章進行詳述,usecols表示讀取列的集合,預設讀取所有的列,parse_dates表示需要轉化為時間的列,關於時間序列的有關內容將在第十章講解,nrows表示讀取的資料行數。上面這些引數在上述的三個函式裡都可以使用。
2.資料寫入
df_csv.to_csv(’…/data/my_csv_saved.csv’, index=False)
df_excel.to_excel(’…/data/my_excel_saved.xlsx’, index=False)
df_txt.to_csv(’…/data/my_txt_saved.txt’, sep=’\t’, index=False)
二、基本資料結構
Series
Series一般由四個部分組成,分別是序列的值data、索引index、儲存型別dtype、序列的名字name。其中,索引也可以指定它的名字,預設為空。
DataFrame
DataFrame在Series的基礎上增加了列索引,一個資料框可以由二維的data與行列索引來構造
三、常用基本函式
1. 彙總函式
head, tail函式分別表示返回表或者序列的前n行和後n行,其中n預設為5
info, describe分別返回表的資訊概況和表中數值列對應的主要統計量
2.特徵統計函式
在Series和DataFrame上定義了許多統計函式,最常見的是sum, mean, median, var, std, max, min
3.唯一值函式
對序列使用unique和nunique可以分別得到其唯一值組成的列表和唯一值的個數
value_counts可以得到唯一值和其對應出現的頻數
如果想要觀察多個列組合的唯一值,可以使用drop_duplicates。其中的關鍵引數是keep,預設值first表示每個組合保留第一次出現的所在行,last表示保留最後一次出現的所在行,False表示把所有重複組合所在的行剔除。此外,duplicated和drop_duplicates的功能類似,但前者返回了是否為唯一值的布林列表,其keep引數與後者一致。其返回的序列,把重複元素設為True,否則為False。 drop_duplicates等價於把duplicated為True的對應行剔除。
4.替換函式
pandas中的替換函式可以歸納為三類:對映替換、邏輯替換、數值替換。在replace中,可以通過字典構造,或者傳入兩個列表來進行替換。另外,replace還有一種特殊的方向替換,指定method引數為ffill則為用前面一個最近的未被替換的值進行替換,bfill則使用後面最近的未被替換的值進行替換。
5.排序函式
排序共有兩種方式,其一為值排序,其二為索引排序,對應的函式是sort_values和sort_index。
6.apply方法
apply方法常用於DataFrame的行迭代或者列迭代,它的axis含義與第2小節中的統計聚合函式一致,apply的引數往往是一個以序列為輸入的函式
四、視窗物件
pandas中有3類視窗,分別是滑動視窗rolling、擴張視窗expanding以及指數加權視窗ewm
1.滑窗物件
2.擴張視窗
練習
相關文章
- Pandas進階貳 pandas基礎
- Pandas 基礎 (2) - Dataframe 基礎
- Pandas基礎介紹
- Pandas基礎學習
- pandas - 基礎屬性
- Pandas 基礎 (18) - Period and PeriodIndexIndex
- 4.pandas基礎使用
- Pandas 基礎 (16) - Holidays
- Pandas 基礎 (17) - to_datetime
- Pandas 基礎 (14) - DatetimeIndex and ResampleIndex
- Pandas 基礎 (12) - Stack 和 Unstack
- 【Pandas基礎教程】第02講 Pandas讀取資料
- Pandas 基礎 (13) - Crosstab 交叉列表取值ROS
- 組隊學習2——pandas基礎
- pandas學習之Python基礎Python
- Pandas 基礎 (9) - 組合方法 merge
- Pandas 基礎 (11) - 用 melt 做格式轉換
- Pandas 基礎 (8) - 用 concat 組合 dataframe
- Pandas 基礎 (5) - 處理缺失的資料
- Pandas 基礎 (3) - 生成 Dataframe 的幾種方式
- Pandas 基礎 (1) - 初識及安裝 yupyter
- Pandas 基礎 (4) - 讀 / 寫 Excel 和 CSV 檔案Excel
- Pandas庫基礎分析——資料生成和訪問
- Pandas 基礎 (6) - 用 replace () 函式處理不合理資料函式
- Pandas 基礎 (19) - 運算元據庫 (read_sql, to_sql)SQL
- Python資料分析 Pandas模組 基礎資料結構與簡介Python資料結構
- 【Python資料探勘課程】六.Numpy、Pandas和Matplotlib包基礎知識Python
- 【圖論】Python [ numpy, pandas] 實現 基礎能力以及基礎演算法 [ dfs bfs spfa ] 經過較為嚴格測試圖論Python演算法
- Pandas之:Pandas簡潔教程
- pandas的基礎使用,資料庫連線,檔案讀取,切片的使用等基本操作----01資料庫
- Pandas - pandas.Series.pipe 函式函式
- Java基礎-語法基礎Java
- 前端基礎之jQuery基礎前端jQuery
- [今日白學]元件的基礎的基礎的基礎元件
- 【web前端基礎 | JS基礎】物件Web前端JS物件
- scala基礎語法-----Spark基礎Spark
- Java基礎-物件導向基礎Java物件
- 【基礎篇索引】索引基礎(四)索引