Python操作Excel的36個必備函式
本文涉及pandas最常用的36個函式,透過這些函式介紹如何完成資料生成和匯入、資料清洗、預處理,以及最常見的資料分類,資料篩選,分類彙總,透視等最常見的操作。
生成資料表
常見的生成資料表的方法有兩種,第一種是匯入外部資料,第二種是直接寫入資料。
Excel中的“檔案”選單中提供了獲取外部資料的功能,支援資料庫和文字檔案和頁面的多種資料來源匯入。
Python支援從多種型別的資料匯入。在開始使用Python進行資料匯入前需要先匯入numpy和pandas庫。
匯入外部資料
裡面有很多可選引數設定,例如列名稱、索引列、資料格式等
直接寫入資料
資料表檢查
資料表檢查的目的是瞭解資料表的整體情況,獲得資料表的關鍵資訊、資料的概況,例如整個資料表的大小、所佔空間、資料格式、是否有 空值和重複項和具體的資料內容,為後面的清洗和預處理做好準備。
1.資料維度(行列)
Excel中可以透過CTRL+向下的游標鍵,和CTRL+向右的游標鍵 來檢視行號和列號。Python中使用shape函式來檢視資料表的維度,也就是行數和列數。
df.shape
2.資料表資訊
使用info函式檢視資料表的整體資訊,包括資料維度、列名稱、資料格式和所佔空間等資訊。#資料表資訊
3.檢視資料格式
Excel中透過選中單元格並檢視開始選單中的數值型別來判斷數 據的格式。Python中使用dtypes函式來返回資料格式。
Dtypes是一個檢視資料格式的函式,可以一次性檢視資料表中所 有資料的格式,也可以指定一列來單獨檢視
4.檢視空值
Excel中檢視空值的方法是使用“定位條件”在“開始”目錄下的“查詢和選擇”目錄。
Isnull是Python中檢驗空值的函式
5.檢視唯一值
Excel中檢視唯一值的方法是使用“條件格式”對唯一值進行顏色 標記。
Python中使用unique函式檢視唯一值。
6.檢視資料表數值
Python中的Values函式用來檢視資料表中的數值
7.檢視列名稱
Colums函式用來單獨檢視資料表中的列名稱。
8.檢視前10行資料
Head函式用來檢視資料表中的前N行資料
9.檢視後10行資料
Tail行數與head函式相反,用來檢視資料表中後N行的資料
資料表清洗
本章介紹對資料表中的問題進行清洗,包括對空值、大小寫問題、資料格式和重複值的處理。
1.處理空值(刪除或填充)
Excel中可以透過“查詢和替換”功能對空值進行處理
Python中處理空值的方法比較靈活,可以使用 Dropna函式用來刪除資料表中包含空值的資料,也可以使用fillna函式對空值進行填充。
也可以使用數字對空值進行填充
使用price列的均值來填充NA欄位,同樣使用fillna函式,在要填充的數值中使用mean函式先計算price列當前的均值,然後使用這個均值對NA進行填充。
2.清理空格
字元中的空格也是資料清洗中一個常見的問題
3.大小寫轉換
在英文欄位中,字母的大小寫不統一也是一個常見的問題。Excel中有UPPER,LOWER等函式,Python中也有同名函式用來解決 大小寫的問題。
4.更改資料格式
Excel中透過“設定單元格格式”功能可以修改資料格式。
Python中透過astype函式用來修改資料格式。
5.更改列名稱
Rename是更改列名稱的函式,我們將來資料表中的category列更改為category-size。
6.刪除重複值
Excel的資料目錄下有“刪除重複項”的功能
Python中使用drop_duplicates函式刪除重複值
city列中beijing存在重複,分別在第一位和最後一位 drop_duplicates()函式刪除重複值
設定keep='last‘’引數後,與之前刪除重複值的結果相反,第一位 出現的beijing被刪除
7.數值修改及替換
Excel中使用“查詢和替換”功能就可以實現數值的替換
Python中使用replace函式實現資料替換
資料預處理
本章主要講的是資料的預處理,對清洗完的資料進行整理以便後期的統計和分析工作。主要包括資料表的合併,排序,數值分列,資料分組及標記等工作。
1.資料表合併
在Excel中沒有直接完成資料表合併的功能,可以透過VLOOKUP函式分步實現。在Python中可以透過merge函式一次性實現。
使用merge函式對兩個資料表進行合併,合併的方式為inner,將 兩個資料表中共有的資料匹配到一起生成新的資料表。並命名為 df_inner。
合併的方式還有left,right和outer方式
2.設定索引列
索引列可以進行資料提取,彙總,資料篩選
3.排序(按索引,按數值)
Excel中可以透過資料目錄下的排序按鈕直接對資料表進行排序
Python中需要使用ort_values函式和sort_index函式完成排序
Sort_index函式用來將資料表按索引列的值進行排序。
4.資料分組
Excel中可以透過VLOOKUP函式進行近似匹配來完成對數值的分組,或者使用“資料透視表”來完成分組
Python中使用Where函式用來對資料進行判斷和分組
還可以對多個欄位的值進行判斷後對資料進行分組,下面的程式碼中對city列等於beijing並且price列大於等於4000的資料標記為1。
5.資料分列
Excel中的資料目錄下提供“分列”功能。
在Python中使用split函式實現分列在資料表中category列中的資料包含有兩個資訊,前面的數字為類別id,後面的字母為size值。中間以連字元進行連線。我們使用split函式對這個欄位進行拆分,並將拆分後的資料表匹配回原資料表中。
資料提取
1.按標籤提取(loc)
使用冒號可以限定提取資料的範圍,冒號前面為開始的標籤值後面為結束的標籤值。
Reset_index函式用於恢復索引,這裡我們重新將date欄位的日期 設定為資料表的索引,並按日期進行資料提取。
2.按位置提取(iloc)
使用iloc函式按位置對資料表中的資料進行提取,這裡冒號前後 的數字不再是索引的標籤名稱,而是資料所在的位置,從0開始。
iloc函式除了可以按區域提取資料,還可以按位置逐條提取
前面方括號中的0,2,5表示資料所在行的位置,後面方括號中的數表示所在列的位置。
3.按標籤和位置提取(ix)
ix是loc和iloc的混合,既能按索引標籤提取,也能按位置進行數 據提取.
4.按條件提取(區域和條件值)
使用loc和isin兩個函式配合使用,按指定條件對資料進行提取
將isin函式巢狀到loc的資料提取函式中,將判斷結果為Ture資料 提取出來。這裡我們把判斷條件改為city值是否為beijing和shanghai。如果是就把這條資料提取出來。
資料篩選
按條件篩選(與、或、非)
Excel資料目錄下提供了“篩選”功能,用於對資料表按不同的條 件進行篩選。
Python中使用loc函式配合篩選條件來完成篩選功能。配合sum和count函式還能實現Excel中sumif和countif函式的功能。使用“與”條件進行篩選,條件是年齡大於25歲,並且城市為 beijing。
在前面的程式碼後面增加city列,並使用count函式進行計數。相當於Excel中的countifs函式的功能
還有一種篩選的方式是用query函式
在前面的程式碼後增加price欄位和sum函式。對篩選後的price欄位 進行求和,相當於Excel中的sumifs函式的功能。
資料彙總
Excel中使用分類彙總和資料透視可以按特定維度對資料進行彙總,Python中使用的主要函式是groupby和pivot_table。
1.分類彙總
還可以對彙總後的資料同時按多個維度進行計算
2.資料透視
Python中透過pivot_table函式實現同樣的效果
資料統計
1.資料取樣
Excel的資料分析功能中提供了資料抽樣的功能
Python透過sample函式完成資料取樣
Weights引數是取樣的權重,透過設定不同的權重可以更改取樣的結果
Sample函式中引數replace,用來設定取樣後是否放回
2.描述統計
Python中可以透過Describe對資料進行描述統計
3.相關分析
Python中則透過corr函式完成相關分析的操作,並返回相關係數。
資料輸出
1.寫入Excel
2.寫入csv
python學習網,大量的免費,歡迎線上學習!
本文轉自:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2558/viewspace-2835037/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Excel函式公式大全,辦公文員必備Excel函式公式Excel函式公式
- python必會的函式或者操作Python函式
- 8個最常用的內建函式,Python小白必備!函式Python
- 10個必備的 async/await 工具函式AI函式
- 職場必備!學會這4個技巧,便可輕鬆操作Excel!Excel
- excel中最常用的30個函式 excel表格常用函式技巧大全Excel函式
- python入門必會的助手函式:dir()函式Python函式
- 15個常用excel函式公式 excel函式辦公常用公式Excel函式公式
- 一個函式學excel函式Excel
- excel最常用的八個函式彙總 excel中各函式的用途功能Excel函式
- Linux 操作必備 150 個命令Linux
- JMeter36個內建函式及11個新增函式介紹JMeter函式
- 『無為則無心』Python函式 — 36、Python中的模組Python函式
- python操作excelPythonExcel
- EXCEL 基本函式Excel函式
- Python對excel的基本操作PythonExcel
- python 的幾個常用的函式Python函式
- python 操作 Excel 表格PythonExcel
- Python學習-字串函式操作1Python字串函式
- Python學習-字串函式操作3Python字串函式
- 【收藏】Python語言中必備的20個字串方法!Python字串
- Excel函式的初級用法Excel函式
- 用Python完成Excel的常用操作PythonExcel
- Python操作Excel的Xlwings教程(六)PythonExcel
- Python操作Excel的Xlwings教程(七)PythonExcel
- Excel 優化函式Excel優化函式
- Python騷操作:動態定義函式Python函式
- 解鎖四個基礎的Excel函式技巧,個個都很實用Excel函式
- Vue開發必須知道的36個技巧Vue
- 辦公組必備的入門級Excel技巧Excel
- 【Python基礎】Python 函式返回多個值和函式註解Python函式
- 線上pdf轉excel,辦公必備!Excel
- python 66個內建函式Python函式
- Python 這10個字典操作你必須知道Python
- Python中open函式怎麼操作檔案Python函式
- php操作string的函式PHP函式
- excel中常用函式(二)Excel函式
- excel妙用之VLOOKUP函式Excel函式