資料庫專家都應該知道的5個統計學知識

資料庫安全專家發表於2019-07-10

實際上,資料科學可以定義為我們從資料中獲取附加資訊的過程。我們在進行資料科學時真正想要做的是解釋除數字之外的現實世界中所有資料的實際含義。


為了提取複雜資料集中隱藏的資訊,資料科學家採用了多種工具和技術,包括資料探勘、資料視覺化和資料建模。統計是資料探勘中常用的一種非常重要的數學技術。


在實際應用中,統計學允許我們定義具體的資料數學摘要。我們可以使用統計資訊來描述其中的一些屬性,而不是試圖描述每個資料點。這通常足以提取一些關於資料結構和組成的資訊


有時候,當人們聽到“統計”這個詞時,他們往往會想到一些過於複雜的事情。這可能有點抽象,但我們不必總是藉助複雜的理論來從統計中獲得一些價值。


統計最基本的部分通常是資料科學最實際的部分。


今天,我們將分享五種對資料科學有用的統計方法。這些不是過於抽象的概念,而是相當簡單且具有長期適用性的技術。


集中趨勢


資料集或特徵變數集中的趨勢是集合的中心值或典型值。這個想法是,可能有一個單一的值,最好地描述我們的資料集(在某種程度上)。


例如,假設您有一個以x-y位置為中心的正態分佈(100,100)。然後,點(100,100)是一個集中趨勢,因為它提供了所有替代點之間資料的最佳摘要。


對於資料科學,我們可以使用集中趨勢快速簡單地測量,以瞭解我們資料集的整體情況。我們資料的“中心”可能是非常有價值的資訊,告訴我們資料集是如何有偏差的,因為資料周圍的任何值都具有內在的偏差。


在數學中有兩種常用的選擇趨勢的方法。


平均數(Mean)


平均值是資料集的平均值,是整個資料傳播的數字。定義平均值時,用於計算平均值的所有值的權重相等。


例如,計算以下5個數字的平均值:


(3+64+187+12+52)/5=63.6


平均值非常適合計算實際數學平均值,使用像Numpy這樣的Python庫也非常快。


中值的


中間值是資料集的中間值,也就是說,我們將資料從最小值排序到最大值(或從最大值排序到最小),然後取集合的中間值:即中值。


計算前一個例子中5個數字的中位數:


[3,12,52,64,187]→ 52


中值與平均值完全不同。他們不是對是錯,但我們可以根據自己的情況和目標來選擇。


計算中位數需要對資料進行排序 - 如果資料集很大,這可能有點不切實際。


另一方面,離群值的中位值比平均值更穩健,因為如果有一些非常高的離群值,平均值會被拉向一個方向。


平均值和中位數可以用簡單的麻木的單線來計算:


numpy.mean(array)


numpy.median(array)


二,傳播(傳播)


從統計學上講,資料擴散指的是索引資料壓縮到一個或多個值的程度,這些值分佈在更大的範圍內。


參考下面的高斯機率圖假設這些是描述現實世界資料集的機率分佈。


藍色曲線具有最小的擴散值,因為其大多數資料點都在相當窄的範圍內。紅色曲線具有最大的擴散值,因為大多數資料點佔用更大的範圍。


圖例還顯示了這些曲線的標準偏差,將在下一節中介紹。


標準偏差


標準差是量化資料擴散程度的最常用方法。計算標準偏差需要5個步驟:


找到平均數。


對於每個資料點,查詢它與平均值之間距離的平方。


對步驟2中的值求和。


除以資料點的數量。


取平方根。


5資料科學家應該知道的統計知識


值越大,我們的資料從平均值“擴散”的程度就越高。值越小,我們的資料就越關注平均值。


計算麻木的標準偏差:麻木。std(射線)


三,百分位數(百分位數)


我們可以用百分位數來進一步描述每個資料點在整個範圍內的位置。


百分位數根據資料點在值範圍內的位置描述資料點的確切位置。


更正式地說,第p百分位數是資料集中的值,在該值處資料集可以分成兩部分。下半部分包含p%資料,稱為第p百分位數。


例如,以下11個數字的集合:


1,3,5,7,9,11,13,15,17,19,21


數字15是70百分位數,因為當我們把資料集分為兩個部分在數字15,有70個資料少於15。


百分位數與均值和標準差的組合使我們很好地瞭解特定點在資料集的範圍/範圍內的位置。如果是異常值,其百分位數將接近終點 - 小於5%或大於95%。另一方面,如果百分位數接近50,那麼我們就可以知道它非常接近濃度趨勢。


陣列的第五十個百分位數是以numpy:numpy計算的。百分位數(陣列,50)


第四,Skewness


資料的偏差衡量其不對稱性。


偏度為正,表示該值集中在資料點中心的左側,而負偏度表示該值集中在資料點中心的右側。


下圖提供了一個很好的例子。


我們可以使用以下等式計算偏度:


撓度使我們知道資料分佈與高斯分佈之間的距離。坡度越大,我們的資料集離高斯分佈越遠。


這很重要,因為如果我們對資料的分佈有一個大概的瞭解,我們就可以定製我們想要針對特定分佈進行訓練的ML模型。此外,並非所有ML建模技術對非高斯資料都有效。


同樣,在我們開始建模之前,統計資料可以給我們提供非常有洞察力的資訊!


如何計算sipy程式碼中的偏差:跳過。)(傾斜)


5.協方差和相關係數(相關)


協方差


兩個特徵變數的協方差度量它們之間的相關性。如果兩個變數的協方差為正,另一個將隨著一個變數的增加而增加,當協方差為負時,特徵變數的值將向相反的方向變化。


相關係數


相關係數只是標準化(尺度)的協方差,除以所分析的兩個變數的標準差的乘積。這實際上迫使關聯範圍保持在-1.0和1.0之間。


如果兩個特徵變數的相關係數為1.0,則兩個特徵變數的相關係數正相關。這意味著如果給出變數的變化量,則第二個變數將按比例移動到相同的方向。


用於降維的PCA圖解


當正相關係數小於1時,正相關係數小於完全正相關係數,相關係數隨接近1的次數增加。相同的思想適用於負相關性,只是特徵變數的值在相反方向上而不是在同一方向上發生變化。


理解相關性對於降維技術(如主成分分析(PCA))非常有用。我們首先計算相關矩陣 - 如果兩個或多個變數高度相關,它們在解釋我們的資料時實際上是多餘的,並且可以移除其中一些以降低複雜性。


中安威士 :保護核心資料,捍衛網路安全


來源:網路收集



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69914889/viewspace-2650144/,如需轉載,請註明出處,否則將追究法律責任。

相關文章