太愛了!一款基於智慧推薦的Python資料探索(EDA)工具來了!

Python學習與資料探勘發表於2020-12-25

作為一名資料科學家,資料探索(EDA) 是我們的日常工作。對於資料科學家來說,沒有比資料探索技能更重要的了。雖然這很重要,但我們知道這個過程很麻煩,有時也非常浪費時間。此外,很多時候,我們不知道從哪裡開始探索資料。

下面以 mpg 資料集為例進行分析:

import pandas as pd
import seaborn as sns
mpg = pd.read_csv('seaborn-data-master/mpg.csv')
mpg.head()

在這裡插入圖片描述

我們知道 Python 中有 Pandas ProfilingPandasGUI 這樣的資料探索工具包,但論實用性方面,我更推薦使用 Lux 這款工具!

Lux

在這裡插入圖片描述

Lux 是 Python 中的開源包,它通過自動化資料探索過程使資料科學更加容易,幫助我們更智慧地利用它們的建議來探索資料。

讓我們從安裝包開始。

pip install lux-api

安裝完軟體包後,我們需要在 jupyter notebook 中啟用 lux 小部件。

jupyter nbextension install --py luxwidget
jupyter nbextension enable --py luxwidget

現在,讓我們嘗試使用 Lux 包來瀏覽我們的資料。首先需要匯入包以在 notebook 中自動設定小部件。我們使用上面所講述的 mpg 資料集。

import lux
mpg

在這裡插入圖片描述

使用 Lux 包,我們可以看到一個新的按鈕稱為"pandas/Lux",我們可以嘗試按下該按鈕。

Lux 基本視覺化

在這裡插入圖片描述

Lux 會自動根據資料集建立一組視覺化效果。預設情況下,建立三個視覺化類別:相關性分佈發生

"相關性"選項卡包含兩個變數之間的所有數值關係,這些變數由散點圖視覺化。你可以在上面的圖片中看到示例。

"分佈"選項卡顯示一個數字變數,其中變數使用直方圖圖進行視覺化。
在這裡插入圖片描述

"發生"選項卡顯示分類變數的計數圖。它顯示分類變數中的每個類頻率,如下圖所示。
在這裡插入圖片描述

基於 Lux 推薦的視覺化

除了資料框視覺化之外,我們還可以在 Lux 中指定我們感興趣的 Lux 屬性和值,以指導資料探索的潛在下一步。

如果我對 “mpg” 和"horsepower" 屬性都感興趣。我們可以在 Lux 包中指定它,以指導我們使用該方法。

mpg.intent = ['mpg', 'horsepower']

在這裡插入圖片描述

Lux 為我們提供了視覺化建議。我們可以看到三種不同的選項:增強篩選概括

"增強"選項卡通過將附加變數新增到當前意圖中來顯示視覺化建議。

"篩選"選項卡將篩選器新增到已設定的當前意圖中;"篩選"選項卡將"篩選"新增到已設定的當前意圖中。在固定屬性(X 軸和 Y 軸上)時完成此設定。該建議將向我們顯示從另一個變數篩選的變數之間的關係。從下圖中可以看到散點圖由列具有的每個 model_year 變數篩選。

在這裡插入圖片描述

"概括"選項卡將刪除屬性以顯示更通用的趨勢,顯示屬性的分佈。目的是關注我們感興趣的當前屬性。

在這裡插入圖片描述

Lux 匯出視覺化效果

在這裡插入圖片描述

上圖中我給出一個紅色圓圈。有了這個,我們已經成功地匯出了圖表。

結論

Lux是一個基於推薦的系統 EDA,可幫助我們快速訪問資料。該包幫助我們提供所有可能的資料組合,並基於我們自己的意圖探索資料。如果你對lux非常感興趣,可以閱讀如下連結:

https://github.com/lux-org/lux#

更多技術交流

為方便技術交流,本號開通了技術交流群,有問題請新增小助手微訊號:connect_we,備註:CSDN。
在這裡插入圖片描述

相關文章