清單型or報表型
日常辦公常常會見到兩種型別的Excel資料表:清單型和報表型。如下圖所示,你覺得哪張表格更好?(注:資料是假資料)
你可能會想:表3最清楚啊!表2次之,表1資料最冗餘,比如語文寫了8遍,太浪費了!
沒錯,從人的視角看這三張表格,確實如此。但是計算機更“喜歡”表1這種清單型的資料表。
可以簡單分析一下他們的優缺點:
清單型
-
【優】資料表是結構化的,每一列是一種型別的資料,而每一行是一條完整的記錄,這便於計算機處理,如進行篩選、排序等; -
【缺】資料量多的時候,會存在很多冗餘的儲存,也不方便人來閱讀。
報表型
-
【優】有合併的單元格,資料呈現更清晰美觀、便於人來閱讀; -
【缺】難以用計算機來處理分析。
資料分析是要交給計算機來做的,所以,在設計Excel資料表結構時,建議設計成清單型資料表。當然很多資料平臺匯出的資料表也都是清單型的,如問卷平臺的資料表。
故:清單型資料表更適合用計算機做資料分析。
篩選and排序
當清單型資料表每行的記錄增多時,資料表往往會很“長”。在大資料面前,如何利用計算機快速獲取、檢視自己想看的資料呢?篩選
和排序
是兩種基本的資料處理方法。無論是圖形介面的應用軟體,還是程式語言,都能很好的對清單型資料表進行篩選
和排序
。下面就以Excel
和python
兩種方式簡單處理清單型資料。
1.篩選出各班數學成績
Excel的篩選
Python的篩選
import pandas as pd
# 讀取Excel資料表
df = pd.read_excel("資料例項.xlsx")
# 篩選學科列為數學的資料
mathDF = df[df['學科']=='數學']
2.對各班數學成績進行降序排序
Excel的排序
Python的排序
# 對數學的平均分降序排序
mathDF.sort_values(by='平均分', ascending=False)
統計and so on
篩選和排序可以說是從清單型資料表中獲取有用資料的基本方法。基於篩選和排序的資料,便可以進行各類資料的統計、計算等等。