Python資料分析入門(十四):資料分析中常用圖

松鼠愛出餅乾發表於2021-04-10

折線圖:

折線圖用於顯示資料在一個連續的時間間隔或者時間跨度上的變化,它的特點是反映事物隨時間或有序類別而變化的趨勢。示例圖如下:

 

Python資料分析入門(十四):資料分析中常用圖

 

折線圖應用場景:

  • 折線圖適合X軸是一個連續遞增或遞減的,對於沒有規律的,則不適合使用折線圖,建議使用柱狀圖。
  • 如果折線圖條數過多,則不應該都繪製在一個圖上。

柱狀圖:

典型的柱狀圖(又名條形圖),使用垂直或水平的柱子顯示類別之間的數值比較。其中一個軸表示需要對比的分類,另一個軸代表相應的數值。

柱狀圖有別於直方圖,柱狀圖無法顯示資料在一個區間內的連續變化趨勢。柱狀圖描述的是分類資料,回答的是每一個分類中“有多少?”這個問題。 示例圖如下:

 

Python資料分析入門(十四):資料分析中常用圖

柱狀圖應用場景:

  • 適用於分類資料對比。

  • 垂直條形圖最多不超過12個分類(也就是12個柱形),橫向條形圖最多不超過30個分類。如果垂直條形圖的分類名太長,那麼建議換成橫向條形圖。


    Python資料分析入門(十四):資料分析中常用圖

    Python資料分析入門(十四):資料分析中常用圖
  • 柱狀圖不適合表示趨勢,如果想要表示趨勢,應該使用折線圖。

直方圖:

直方圖(Histogram),又稱質量分佈圖,是一種統計報告圖,由一系列高度不等的條紋表示資料分佈的情況。一般用橫軸表示資料型別,縱軸表示分佈情況。 直方圖是數值資料分佈的精確圖形表示。為了構建直方圖,第一步是將值的範圍分段,即將整個值的範圍分成一系列間隔,然後計算每個間隔中有多少值。這些值通常被指定為連續的,不重疊的變數間隔。間隔必須相鄰,並且通常是(但不是必須的)相等的大小。

 

Python資料分析入門(十四):資料分析中常用圖

直方圖的應用場景:

  • 顯示各組資料數量分佈的情況。
  • 用於觀察異常或孤立資料。
  • 抽取的樣本數量過小,將會產生較大誤差,可信度低,也就失去了統計的意義。因此,樣本數不應少於50個。

散點圖:

散點圖也叫 X-Y 圖,它將所有的資料以點的形式展現在直角座標系上,以顯示變數之間的相互影響程度,點的位置由變數的數值決定。

通過觀察散點圖上資料點的分佈情況,我們可以推斷出變數間的相關性。如果變數之間不存在相互關係,那麼在散點圖上就會表現為隨機分佈的離散的點,如果存在某種相關性,那麼大部分的資料點就會相對密集並以某種趨勢呈現。資料的相關關係主要分為:正相關(兩個變數值同時增長)、負相關(一個變數值增加另一個變數值下降)、不相關、線性相關、指數相關等,表現在散點圖上的大致分佈如下圖所示。那些離點叢集較遠的點我們稱為離群點或者異常點。

Python資料分析入門(十四):資料分析中常用圖

 

Python資料分析入門(十四):資料分析中常用圖

 

散點圖的應用場景:

  • 觀察資料集的分佈情況。
  • 通過分析規律,根據樣本資料特徵計算出迴歸方程。

餅狀圖:

餅狀圖通常用來描述量、頻率和百分比之間的關係。在餅圖中,每個扇區的弧長大小為其所表示的數量的比例。

 

Python資料分析入門(十四):資料分析中常用圖

 

餅狀圖的應用場景:

  • 展示多個分類的佔比情況,分類數量建議不超過9個。
  • 對於一些佔比值非常接近的,不建議使用餅狀圖,可以使用柱狀圖。

箱線圖:

箱線圖(Box-plot)又稱為盒須圖、盒式圖或箱型圖,是一種用作顯示一組資料分散情況資料的統計圖。因形狀如箱子而得名。在各種領域也經常被使用,它主要用於反映原始資料分佈的特徵,還可以進行多組資料分佈特徵的比較。箱線圖的繪製方法是:先找出一組資料的上限值、下限值、中位數(Q2)和下四分位數(Q1)以及上四分位數(Q3);然後,連線兩個四分位數畫出箱子;再將最大值和最小值與箱子相連線,中位數在箱子中間。

Python資料分析入門(十四):資料分析中常用圖

 

Python資料分析入門(十四):資料分析中常用圖

 

四分位數(Quartile)也稱四分位點,是指在統計學中把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值。多應用於統計學中的箱線圖繪製。它是一組資料排序後處於25%和75%位置上的值。四分位數是通過3個點將全部資料等分為4部分,其中每部分包含25%的資料。很顯然,中間的四分位數就是中位數,因此通常所說的四分位數是指處在25%位置上的數值(稱為下四分位數)和處在75%位置上的數值(稱為上四分位數)。與中位數的計算方法類似,根據未分組資料計算四分位數時,首先對資料進行排序,然後確定四分位數所在的位置,該位置上的數值就是四分位數。與中位數不同的是,四分位數位置的確定方法有幾種,每種方法得到的結果會有一定差異,但差異不會很大。

上限的計算規則是: IQR=Q3-Q1 上限=Q3+1.5IQR 下限=Q1-1.5IQR

箱線圖的應用場景:

    • 直觀明瞭地識別資料中的異常值。
    • 利用箱線圖判斷資料的偏態。
    • 利用箱線圖比較幾批資料的形狀。
    • 箱線圖適合比較多組資料,如果知識要看一組資料的分佈情況,建議使用直方圖。

相關文章