十分鐘 GET 資料分析技巧
作者 | 艾德寶器
來源 | 資料管道
摘要:本文從資料特徵的分佈分析、對比分析、統計分析、貢獻度分析(帕累託分析)和相關性分析五大方面,識別資料分析的一些重要性質。
理論介紹:分佈分析是用來解釋資料的分佈型別和分佈特徵,顯示其分佈情況。所以可以對一開始拿到資料可以首先進行初步的分佈分析。分佈分析主要分成兩種:
① 對定量資料的分佈分析按照如下步驟進行:
1、求極差
2、決定組距與組數
3、決定分點
4、繪製頻率分佈圖
② 對定性的資料分佈分析:
根據變數的分類型別來確定分組,然後使用圖形對資訊進行顯示。
Python 分析結果:
比如現在你爬取到某地區的二手房資訊資料,針對這一批資料的房價你要做一次定量分佈分析,以及對不同房子的朝向做一個定性的分佈分析,以便初步的瞭解房子的一些特徵分佈。
參考房價定量分析
1.首先利用pandas讀取資料並取前五條資料得到如下資訊。
2.求參考總價的分組區間並在原始資料中新增一個新的欄位“參考總價分組區間”。
3.計算每段參考總價的區間的頻數、頻率並繪製直方圖。
房屋朝向定性分析
對不同房屋朝向佔比可繪製一個餅圖。
理論介紹:對比分析是指把兩個相互聯絡的指標進行比較,從數量上展示和說明研究物件規模的大小、水平的高低、速度的快慢,以及各種關係是否協調。特別適用於指標間的橫縱向比較、時間序列的比較分析。在對比分析中,選擇合適的對比標準是十分關鍵的步驟,選擇合適,才能做出客觀的評價,選擇不合適,評價可能得出錯誤的結論。
對比分析主要分為以下兩種形式:
絕對數比較
利用這組指標絕對數進行對比,從而尋找差異的一種方法。
相對數比較
它是由兩個有聯絡的指標對比計算的,用以反映客觀現象之間數量聯絡程度的綜合指標,其數值表現為相對數。由於研究目的和對比基礎不用,相對數可以分為以下幾種:結構相對數、比例相對數、動態相對數和空間相對數。
Python分析結果:
絕對數比較案例:比如現在有某公司的A、B產品某月銷量資料,這裡我們可以對A、B產品的銷量做絕對數對比。
相對數比較案例:
結構相對數:在分組基礎上,各組總量指標與總體的總量指標對比,計算出各組數量在總量中所佔比重。例如,30 天內 A、B 產品的日銷售額,由於 A、B 產品銷售額量級不同,計算出 A、B 產品每日銷售額佔該月各自總銷售額對比。
比例相對數:比例相對數 = 總體中某一部分數值 / 總體中另一部分數值 。如 “基本建設投資額中工業、農業、教育投資的比例”、“男女比例”
空間相對數(橫向):比如說同樣的 2017 年北京和深圳膜拜單車使用量,空間是比較抽象的更多的是在時間相同的情況下,不同的元素的比較 。
動態相對數(縱向):將同一現象在不同時期的指標數值對比,用以說明發展方向和變化的速度,如發展速度、增長速度等。例如求 A 產品的某月的定基增長速度額環比增長速度
理論介紹:對一組資料用統計指標定量的分析資料,一般從集中趨勢和離中趨勢兩個方面來衡量資料。
資料的集中趨勢:指一組資料向某一中心靠攏的傾向,核心在於尋找資料的代表值或中心值 ,所以需要找到資料的統計平均數來衡量。統計平均數可分為,①算術平均數、加權算術平均數②位置平均數。
資料的離中趨勢:指一組資料中各資料以不同程度的距離偏離中心的趨勢,可用極差與分位差、方差與標準差、離散係數 等衡量。
Python結果分析:
對某一組資料分析其集中趨勢結果:
對某一組資料分析其離中趨勢結果:
你要比較A、B資料的分散程度,可求得其分位差和其他指標。你可以繪製箱型圖對比。
理論介紹:帕累託分析又叫貢獻度分析,原理是 20/80 定律,即 80% 的利潤常常來自於 20% 的產品。一般來說投入產出,努力和報酬之間並不是絕對的線性關係,總有一些關鍵因素起著至關重要的作用,而帕累託分析就是找到影響事務的關鍵因素,分清主次。
Python程式碼結果分析:
例如現在你有一份餐廳的不同菜品的盈利資料,你想找到哪些菜對該菜廳的盈利貢獻最大。可按照如下步驟來實現貢獻度分析:
對不同菜品按盈利額排序
計算累積佔比
找到累積佔比 85% 的菜品,並找到其對應的索引位置。
繪製盈利圖並標記核心位置。
05 特徵相關性分析
理論介紹:相關性分析是研究兩個或兩個以上處於同等地位的隨機變數間的相關關係的統計分析方法。例如,人的身高和體重之間;空氣中的相對溼度與降雨量之間的相關關係都是相關分析研究的問題。相關分析與迴歸分析之間的區別:迴歸分析側重於研究隨機變數間的依賴關係,以便用一個變數去預測另一個變數;相關分析側重於發現隨機變數間的種種相關特性。可用相關係數r來衡量兩個特徵之間的相關性。
相關係數r的解讀:
正相關:如果x,y變化的方向一致,如登陸次數和商機使用者的關係,r>0;一般地, |r|>0.95 存在顯著性相關|r|≥0.8 高度相關;0.5≤|r|<0.8 中度相關0.3≤|r|<0.5 低度相關;|r|<0.3 關係極弱,認為不相關。
負相關:如果x,y變化的方向相反,如吸菸與肺功能的關係,r<0
無線性相關:r=0。
關於相關係數的計算有三種:
①Pearson 相關係數
②Spearman 秩相關係數
③Kendall 相關係數。
注意點:皮爾遜相關係數的計算是資料分佈為正太分佈,所以計算之前要先進行正態性檢驗。對於不服從正太分佈變數的關聯性可用斯皮爾曼相關係數來計算,也叫等級相關係數。
Python結果分析:
首先對資料進行正態性檢驗,利用 scipy 裡面整合好的 K-S 檢驗方法。
2. 利用pandas裡面整合好的相關係數計算方法。
小結一下:我們介紹了資料特徵的一些常用分析方法,使用 Python 中的Numpy、Pandas、Scipy、Matplotlib 等庫實現了每一種分析方法的分析結果,透過例項視覺化展示了結果。
本文完。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69900353/viewspace-2629922/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 十分鐘上手chrome效能分析皮膚Chrome
- 睡前十分鐘
- 十分鐘搞定 GradleGradle
- Get職場新知識:做分析,用大資料分析工具大資料
- 十分鐘學會FlaskFlask
- 十分鐘快速上手NutUIUI
- 十分鐘看懂AES加密加密
- 二十分鐘內學會Ruby
- PHP 傳送GET 和 POST資料的方法分析PHP
- Kafka能做什麼?十分鐘構建你的實時資料流管道Kafka
- 十分鐘快速入門 PythonPython
- 三十分鐘拿Git幹活Git
- 三十分鐘寫作訓練
- 十分鐘教條與經驗,輕鬆搞定系統分析師的案例分析
- Yahoo前任資料官:資料探勘與分析技巧(下)IF
- 資料分析軟體,不僅“外表好看”,還“十分能幹”。
- 1688商品資料API介面的資料分析與挖掘技巧API
- 十分鐘完成vscode配合Eslint使用VSCodeEsLint
- 三十分鐘掌握Webpack效能優化Web優化
- 十分鐘搞懂Lombok使用與原理Lombok
- 十分鐘搞懂分散式爬蟲分散式爬蟲
- 十分鐘上手前端UI框架Bootstrap前端UI框架boot
- 爬蟲程式十分鐘入門爬蟲
- 十分鐘初步掌握Oracle資料庫效能調優的常見場景與方法Oracle資料庫
- Pandas 資料分析 5 個實用小技巧
- 十分鐘學習泊松分佈
- 教你十分鐘構建好 SpringBoot + SSM 框架Spring BootSSM框架
- 十分鐘理解Java中的弱引用Java
- 做資料分析必須瞭解的獲取資料與清洗資料技巧
- 十分鐘理解 Java 中的動態代理Java
- 十分鐘明白什麼是容器技術
- 三十分鐘快速搭建serverless網盤服務Server
- 十分鐘搭建自己的linux伺服器?Linux伺服器
- 十分鐘教你學會怎樣看盤
- 10分鐘掌握資料型別、索引、查詢的MySQL優化技巧資料型別索引MySql優化
- 三分鐘瞭解實時流式大資料分析大資料
- StalinLocker:一款會在十分鐘之後刪除檔案和資料的勒索軟體
- 電商API介面的大資料分析與挖掘技巧API大資料