機器學習之統計分析(1)

傲慢的上校發表於2017-03-27

前言

最近在阿里雲數加平臺上學習一下機器學習,把學習中整理的資料記錄於此,已備檢視,以下資料主要是概念解釋及應用。

資料檢視

大資料通用視覺化控制元件,提供所選擇欄位的直方圖,如下圖所示:

這裡寫圖片描述

協方差

相關係數演算法用於計算一個矩陣中每一列之間的協方差 (變化趨勢相同,協方差為正,變化趨勢相反,協方差為負,如果相互獨立,則數值為0,但數值為0,不一定是相互獨立)協方差矩陣計算的是不同維度之間的協方差,而不是不同樣本之間的。

計算公式:

這裡寫圖片描述

在維基百科中,協方差的定義:

協方差(Covariance)在概率論和統計學中用於衡量兩個變數的總體誤差。而方差是協方差的一種特殊情況,即當兩個變數是相同的情況。

這裡寫圖片描述

資料地址

協方差

經驗概率密度圖

概率密度函式的維基百科定義如下:

在數學中,連續型隨機變數的概率密度函式(在不至於混淆時可以簡稱為密度函式)是一個描述這個隨機變數的輸出值,在某個確定的取值點附近的可能性的函式。而隨機變數的取值落在某個區域之內的概率則為概率密度函式在這個區域上的積分。當概率密度函式存在的時候,累積分佈函式是概率密度函式的積分。概率密度函式一般以大寫“PDF”(Probability Density Function)標記[1]。
概率密度函式有時也被稱為概率分佈函式,但這種稱法可能會和累積分佈函式或概率質量函式混淆。

在數加平臺上,效果圖如下:

這裡寫圖片描述

全表統計

分別計算全表的每個欄位的統計資訊,包括預設值、最大最小值、方差、偏值等等。

表中各欄位意義:

  • datatype : 數值型別
  • totalcount、count : 資料數量
  • missingcount : 丟失的數目
  • nancount: (非數) : 錯誤值數量 。是電腦科學中數值資料型別的一類值,表示未定義或不可表示的值
  • positiveinfinitycount : 正無窮大值的數量
  • negativeinfinitycount : 負無窮大值的數量
  • min : 最小數
  • max : 最大數
  • mean : 平均數
  • variance : 方差
  • standarddeviation : 標準差
  • standarderror : 標準誤差

  • skewness : 偏度 (在機率論和統計學中,偏度衡量實數隨機變數概率分佈的不對稱性。偏度的值可以為正,可以為負或者甚至是無法定義。在數量上,偏度為負(負偏態)就意味著在概率密度函式左側的尾部比右側的長,絕大多數的值(包括中位數在內)位於平均值的右側。偏度為正(正偏態)就意味著在概率密度函式右側的尾部比左側的長,絕大多數的值(但不一定包括中位數)位於平均值的左側。偏度為零就表示數值相對均勻地分佈在平均值的兩側,但不一定意味著其為對稱分佈。)

  • Kurtosis : 峰態 在統計學中,峰度(Kurtosis)衡量實數隨機變數概率分佈的峰態。峰度高就意味著方差增大是由低頻度的大於或小於平均值的極端差值引起的。

  • moment2:炬相關概念,暫時沒有理解,在維基百科中有如下解釋:

    在數學中,矩的概念是用來度量一組具有一定形態特點的點陣。舉個常用的例子,一個“二階矩”,我們在一維上可以測量它的“寬度”;而在更高階的維度上,由於其適用於橢球的空間分佈,我們還可以對點的雲結構進行測量和描述。其他的矩用來描述諸如與均值的歪斜分佈情況(偏態),或峰值的分佈情況(峰態)等其他方面的分佈特點。

因為我們常常會將隨機變數(先假定有任意階矩)作一個線性變換,把一階矩(期望)歸零,二階矩(方差)歸一,以便統一研究一些問題。這時候,在同樣期望為0方差為1的標準情況下(以下均假設隨機變數滿足該條件),隨機變數最重要的指標就變成了接下來的兩個矩了。

三階矩,就是我們所稱的「偏度」。粗略來說,一個典型的正偏度變數X的分佈滿足這樣的特徵:很大的概率X會取絕對值較小的負值,但在極少數情況下,X會取特別大的正值。可以理解為「一般為負,極端值為正」。典型的正偏度投資,就是彩票和保險:一般來說,你花的那一點小錢就打水漂了,但是這一點錢完全是在承受範圍內的;而這點錢則部分轉化為小概率情況下的巨大收益。而負偏度變數則正好相反,「一般為正,極端值為負」,可以參照一些所謂的「灰色產業」:一般情況下是可以賺到一點錢的,但是有較小的概率「東窗事發」,賠得血本無歸。

四階矩,又稱峰度,簡單來說相當於「方差的方差」,和偏度類似,都可以衡量極端值的情況。峰度較大通常意味著極端值較常出現,峰度較小通常意味著極端值即使出現了也不會「太極端」。峰度是大還是小通常與3(即正態分佈的峰度)相比較。

至於為什麼五階以上的矩沒有專門的稱呼,主要是因為我們習慣的線性變換,只有兩個自由度,故最多隻能將前兩階矩給「標準化」。這樣,標準化以後,第三、第四階的矩就比較重要了,前者衡量正負,後者衡量偏離程度,與均值、方差的關係類似。換句話說,假如我們能把前四階矩都給「標準化」了,那麼五階、六階的矩就會比較重要了吧。

  • sum : 求和

卡方檢驗

卡方檢驗是比較您資料的實測分佈與資料的預期分佈的假設檢驗。

有多種型別的卡方檢驗:
卡方擬合優度檢驗
使用此分析檢驗分類資料樣本與某個理論分佈的擬合程度。
例如,通過多次擲骰子並使用卡方擬合優度檢驗來確定結果是否服從均勻分佈,可以檢驗骰子是否是正 6 面形的。在此情況下,卡方統計量會將計數的實測分佈不同於假設分佈的程度進行量化。
相關性和獨立性的卡方檢驗
這些檢驗的計算方法都相同,但您嘗試回答的問題可能會有所不同。

  • 相關性檢驗:使用相關性檢驗確定一個變數是否與另一個變數相關。例如,確定不同顏色汽車的銷量是否取決於在哪個城市銷售它們。

  • 獨立性檢驗:使用獨立性檢驗確定一個變數的觀測值是否取決於另一個變數的觀測值。例如,確定某人投票的候選人是否與投票人的性別無關。

在維基百科中,卡方擬合性檢驗有如下定義:

卡方擬合性檢驗是檢驗單個多項分類名義型變數各分類間的實際觀測次數與理論次數之間是否一致的問題,其零假設是觀測次數與理論次數之間無差異。

它在分類資料統計推斷中的應用,包括:兩個率或兩個構成比比較的卡方檢驗;多個率或多個構成比比較的卡方檢驗以及分類資料的相關分析等。

皮爾森卡方檢驗

(英語:Pearson’s chi-squared test)是最有名卡方檢驗之一(其他常用的卡方檢驗還有葉氏連續性校正、似然比檢驗、一元混成檢驗等等--它們的統計值之概率分配都近似於卡方分配,故稱卡方檢驗)。“皮爾森卡方檢驗”最早由卡爾·皮爾森在1900年發表,[1] 用於類別變數的檢驗。科學文獻中,當提及卡方檢驗而沒有特別指明型別時,通常即指皮爾森卡方檢驗。

資料地址

minitab support

minitab wiki

wikipedia

箱線圖

列舉類變數與連續變數的箱線圖,擾動點圖

箱形圖(英文:Box-plot),又稱為盒須圖、盒式圖、盒狀圖或箱線圖,是一種用作顯示一組資料分散情況資料的統計圖。因型狀如箱子而得名。在各種領域也經常被使用,常見於品質管理。不過作法相對較繁瑣。

資料地址

wikipedia

散點圖

資料點在直角座標系平面上的分佈圖。

散點圖表示因變數隨自變數而變化的大致趨勢,據此可以選擇合適的函式對資料點進行擬合。
用兩組資料構成多個座標點,考察座標點的分佈,判斷兩變數之間是否存在某種關聯或總結座標點的分佈模式。散點圖將序列顯示為一組點。值由點在圖表中的位置表示。類別由圖表中的不同標記表示。散點圖通常用於比較跨類別的聚合資料。

資料地址

百度百科

知乎

相關文章