十分鐘 GET 資料分析技巧

作者 | 艾德寶器

來源 | 資料管道

摘要：本文從資料特徵的分佈分析、對比分析、統計分析、貢獻度分析(帕累託分析)和相關性分析五大方面，識別資料分析的一些重要性質。

拿到一份資料進行相關的模型訓練之前，我們通常需要做資料清洗，得到乾淨的資料。進一步需要找到與問題有關的特徵資訊，並把這些特徵轉換成特徵矩陣的數值，這就是機器學習實踐中的重要步驟之一：特徵工程。

01 特徵分佈分析

理論介紹：分佈分析是用來解釋資料的分佈型別和分佈特徵，顯示其分佈情況。所以可以對一開始拿到資料可以首先進行初步的分佈分析。分佈分析主要分成兩種：

① 對定量資料的分佈分析按照如下步驟進行：
1、求極差
2、決定組距與組數
3、決定分點
4、繪製頻率分佈圖
② 對定性的資料分佈分析：
根據變數的分類型別來確定分組，然後使用圖形對資訊進行顯示。

Python 分析結果:

比如現在你爬取到某地區的二手房資訊資料，針對這一批資料的房價你要做一次定量分佈分析，以及對不同房子的朝向做一個定性的分佈分析，以便初步的瞭解房子的一些特徵分佈。

參考房價定量分析

1.首先利用pandas讀取資料並取前五條資料得到如下資訊。

2.求參考總價的分組區間並在原始資料中新增一個新的欄位“參考總價分組區間”。

3.計算每段參考總價的區間的頻數、頻率並繪製直方圖。

房屋朝向定性分析

對不同房屋朝向佔比可繪製一個餅圖。

02 特徵對比分析

理論介紹：對比分析是指把兩個相互聯絡的指標進行比較，從數量上展示和說明研究物件規模的大小、水平的高低、速度的快慢，以及各種關係是否協調。特別適用於指標間的橫縱向比較、時間序列的比較分析。在對比分析中，選擇合適的對比標準是十分關鍵的步驟，選擇合適，才能做出客觀的評價，選擇不合適，評價可能得出錯誤的結論。

對比分析主要分為以下兩種形式：

絕對數比較
利用這組指標絕對數進行對比，從而尋找差異的一種方法。
相對數比較

它是由兩個有聯絡的指標對比計算的，用以反映客觀現象之間數量聯絡程度的綜合指標，其數值表現為相對數。由於研究目的和對比基礎不用，相對數可以分為以下幾種：結構相對數、比例相對數、動態相對數和空間相對數。

Python分析結果：

絕對數比較案例：比如現在有某公司的A、B產品某月銷量資料，這裡我們可以對A、B產品的銷量做絕對數對比。

相對數比較案例：

結構相對數：在分組基礎上，各組總量指標與總體的總量指標對比，計算出各組數量在總量中所佔比重。例如，30 天內 A、B 產品的日銷售額，由於 A、B 產品銷售額量級不同，計算出 A、B 產品每日銷售額佔該月各自總銷售額對比。

比例相對數：比例相對數 = 總體中某一部分數值 / 總體中另一部分數值。如 “基本建設投資額中工業、農業、教育投資的比例”、“男女比例”
空間相對數（橫向）：比如說同樣的 2017 年北京和深圳膜拜單車使用量，空間是比較抽象的更多的是在時間相同的情況下，不同的元素的比較。

動態相對數（縱向）：將同一現象在不同時期的指標數值對比，用以說明發展方向和變化的速度，如發展速度、增長速度等。例如求 A 產品的某月的定基增長速度額環比增長速度

03 特徵統計分析

理論介紹：對一組資料用統計指標定量的分析資料，一般從集中趨勢和離中趨勢兩個方面來衡量資料。

資料的集中趨勢：指一組資料向某一中心靠攏的傾向，核心在於尋找資料的代表值或中心值，所以需要找到資料的統計平均數來衡量。統計平均數可分為，①算術平均數、加權算術平均數②位置平均數。
資料的離中趨勢：指一組資料中各資料以不同程度的距離偏離中心的趨勢，可用極差與分位差、方差與標準差、離散係數等衡量。

Python結果分析：

對某一組資料分析其集中趨勢結果：

對某一組資料分析其離中趨勢結果：

你要比較A、B資料的分散程度，可求得其分位差和其他指標。你可以繪製箱型圖對比。

04 特徵帕累託分析

理論介紹：帕累託分析又叫貢獻度分析，原理是 20/80 定律，即 80% 的利潤常常來自於 20% 的產品。一般來說投入產出，努力和報酬之間並不是絕對的線性關係，總有一些關鍵因素起著至關重要的作用，而帕累託分析就是找到影響事務的關鍵因素，分清主次。

Python程式碼結果分析：

例如現在你有一份餐廳的不同菜品的盈利資料，你想找到哪些菜對該菜廳的盈利貢獻最大。可按照如下步驟來實現貢獻度分析：

對不同菜品按盈利額排序
計算累積佔比
找到累積佔比 85% 的菜品，並找到其對應的索引位置。
繪製盈利圖並標記核心位置。

05 特徵相關性分析

理論介紹：相關性分析是研究兩個或兩個以上處於同等地位的隨機變數間的相關關係的統計分析方法。例如，人的身高和體重之間；空氣中的相對溼度與降雨量之間的相關關係都是相關分析研究的問題。相關分析與迴歸分析之間的區別：迴歸分析側重於研究隨機變數間的依賴關係，以便用一個變數去預測另一個變數;相關分析側重於發現隨機變數間的種種相關特性。可用相關係數r來衡量兩個特徵之間的相關性。

相關係數r的解讀：

正相關：如果x,y變化的方向一致，如登陸次數和商機使用者的關係，r>0；一般地， |r|>0.95 存在顯著性相關|r|≥0.8 高度相關；0.5≤|r|<0.8 中度相關0.3≤|r|<0.5 低度相關；|r|<0.3 關係極弱，認為不相關。
負相關：如果x,y變化的方向相反，如吸菸與肺功能的關係，r<0
無線性相關：r=0。

關於相關係數的計算有三種：

①Pearson 相關係數
②Spearman 秩相關係數
③Kendall 相關係數。

注意點：皮爾遜相關係數的計算是資料分佈為正太分佈，所以計算之前要先進行正態性檢驗。對於不服從正太分佈變數的關聯性可用斯皮爾曼相關係數來計算，也叫等級相關係數。

Python結果分析：

首先對資料進行正態性檢驗，利用 scipy 裡面整合好的 K-S 檢驗方法。

2. 利用pandas裡面整合好的相關係數計算方法。

小結一下：我們介紹了資料特徵的一些常用分析方法，使用 Python 中的Numpy、Pandas、Scipy、Matplotlib 等庫實現了每一種分析方法的分析結果，透過例項視覺化展示了結果。

本文完。

十分鐘 GET 資料分析技巧

相關文章