用一行Python進行資料收集探索

京東科技開發者發表於2019-10-09
用一行Python進行資料收集探索
用一行Python進行資料收集探索

簡易的Pandas之路

任何使用Python資料的人都會熟悉Pandas包。Pandas是大多數行和列格式資料的go-to包。如果你沒有Pandas,請確保在終端中使用pip install安裝:
pip install pandas

現在,讓我們看看Pandas包中的預設方法可以做些什麼:
用一行Python進行資料收集探索


以下內容寫給不知道上面發生了什麼的新手:

任何Pandas資料幀都有一個 .descripe()返回上面的輸出的方法。但是,此方法中沒有注意到分類變數。在上面的示例中,輸出中完全省略了“ method ”列。
讓我們看看能不能解決這個問題。

Pandas分析

用一行Python進行資料收集探索


如果我告訴你僅用3行Python就可以產生以下統計資訊,你會怎麼想?但其實,如果不計算imports的話,總體上只用1行就夠。

  • 要點:型別,唯一值,缺失值
  • 分位數統計資訊:例如最小值,Q1,中位數,Q3,最大值,範圍,四分位數範圍
  • 描述性統計資料:例如平均值,眾數,標準偏差,總和,中位數絕對偏差,變異係數,峰度,偏度
  • 常用值
  • 直方圖
  • 高相關變數Spearman,Pearson和Kendall矩陣的相關性突出顯示
  • 缺失值矩陣,計數,熱圖和缺失值樹狀圖
(功能列表直接來自Pandas Profiling GitHub)
好吧,我們可以使用Pandas Profiling軟體包!要安裝Pandas Profiling軟體包,只需在終端中使用pip install即可:
pip install pandas_profiling

經驗豐富的資料分析人員可能會因為這些資料的鬆散甚至乍一看之下的“華而不實”而嗤之以鼻,但這對於快速獲得資料的第一手印象肯定是有用的:
用一行Python進行資料收集探索


我們首先看到的是概述,其中提供了關於資料和變數的一些非常高階的統計資訊,以及變數之間的高相關性、高偏態性的警告等。

但這還不算什麼。向下滾動我們會發現報告有多個部分,如果只是簡單地用圖片展示這個1行程式的輸出是不足以完全呈現這些內容的,所以我製作了一個gif:
用一行Python進行資料收集探索


我強烈建議大家自己去探索一下這個包的特性,畢竟,這裡提到的只是一行程式碼,在將來 的資料分析中,這個包可能會對你非常有用。

import pandas as pd

import pandas_profiling
pd.read_csv(').profile_report()


原文連結:


用一行Python進行資料收集探索


以上資訊來源於網路,由“京東雲開發者社群”公眾號編輯整理,不代表京東雲立場。


點選“ 京東雲 ”瞭解京東雲資料工廠產品


歡迎點選“ 京東雲 ”瞭解更多精彩內容


用一行Python進行資料收集探索


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69912185/viewspace-2659199/,如需轉載,請註明出處,否則將追究法律責任。

相關文章