第4章 資料的概括性度量
利用圖表展示資料,可以讓我們對資料分佈的形狀和特徵有一個大致的瞭解。但是要全面把握資料分佈的特徵,還需要找到反映資料分佈特徵的各個代表值。資料分佈的特徵可以從三個方面進行測度和描述:
- 分佈的集中趨勢:反映各資料向其中心值靠攏或聚集的程度;
- 分佈的離散程度:反映各資料遠離其中心值的趨勢;
- 分佈的形狀:反映資料分佈的偏態和峰態
集中趨勢的度量
集中趨勢是指一組資料向某一中心值靠攏的程度,它反映了一組資料中心點的位置所在。
1. 分類資料:眾數
眾數是一組資料中能夠出現最多的變數值。眾數主要用於測度分類資料分類資料的集中趨勢,也可作為順序資料以及數值型資料集中趨勢的測度值。一般情況下,只有在資料量較大的情況下眾數才有意義。
2. 順序資料:中位數和分位數
在一組資料中,可以找出處在某個位置上的資料,這些位置上的資料就是相應的分位數,其中包括中位數、四分位數、十分位數、百分位數等。
- 中位數(二分位數):一組資料排序後處於中間位置上的變數值。中位數主要用於測度順序資料的集中趨勢,當然也適用於測度數值型資料的集中趨勢,但不適用於分類資料。【中位數是一個位置代表值,其特點是不受極端值的影響,在研究收入分配時很有用】
- 四分位數:也稱四分位點,它是一組資料排序後處於25%(上四分位數)和75%(下四分位數)上的值。
3. 數值型資料:平均數
平均數也稱為均值,它是一組資料相加後除以資料的個數得到的結果。
平均數是集中趨勢的最主要測度值,它主要適用於數值型資料,而不適用於分類資料和順序資料。
根據所掌握資料的不同,平均數有不同的計算形式和計算公式:
- 簡單平均數:根據未分組資料計算的平均數
- 加權平均數:根據分組資料計算的平均數(使用各組的組中值代表各組的實際資料)
一種特殊的平均數:幾何平均數
幾何平均數是n個變數值乘積的n次方根,用G表示。計算公式為:
幾何平均數是適用於特殊資料的一種平均數,它主要用於計算平均比率。當所掌握的變數值本身是比率形式時,採用幾何平均法計算比率更為合理。在實際應用中,幾何平均數主要用於計算現象的平均增長率。
4. 眾數、中位數和平均數的比較
-
眾數、中位數和平均數的關係
對於具有單峰分佈的大多數資料而言,眾數、中位數和平均數之間具有以下關係:
- 如果資料的分佈是對稱的,眾數=中位數=平均數;
- 如果資料是左偏分佈,說明資料存在極小值,必定拉動平均數向極小值一方靠,而眾數和中位數由於是未知代表值,不受極值的影響,因此平均數<中位數<眾數;
- 如果資料是右偏分佈,說明資料存在極大值,必然拉動平均數向極大值一方靠,因此眾數<中位數<平均數
-
眾數、中位數和平均數的特點與應用場合
眾數是一組資料分佈的峰值,不受極端值的影響,其缺點是具有不唯一性,一組資料可能有一個眾數,也可能有兩個或多個眾數,也可能沒有眾數。眾數只有在資料量較多時才有意義,當資料量較少時,不宜使用眾數。眾數適合作為分類資料集中趨勢測度值。
中位數是一組資料中間位置上的值,不受資料極端值的影響。當一組資料的分佈偏斜程度較大時,使用中位數也許是一個好的選擇。中位數適合作為順序資料的集中趨勢測度值。
平均數是針對數值型資料計算的,而且利用了全部資料資訊,它是應用最廣泛的集中趨勢測度值。當資料呈對稱分佈或接近對稱分佈時,三個代表值相等或接近相等,這時則應選擇平均數作為集中趨勢的代表值。
但平均數的主要缺點是易受資料極端值的影響,對於偏態分佈的資料,平均數的代表性較差。因此,當資料為偏態分佈,特別是偏斜程度較大時,可以考慮選擇中位數或眾數,這時它們的代表性要比平均數好。
離散程度的度量
資料的離散程度是資料分佈的另一個重要特徵,它反映的是各變數值遠離其中心值的程度。資料的離散程度越大,集中趨勢的測度值對該組資料的代表性越差,反之,越好。描述資料離散程度採用的測度值,根據資料型別的不同主要有異眾比率、四分位差、方差和標準差、此外,還有極差、平均差以及測度相對離散係數。
1. 分類資料:異眾比率
異眾比率是指非眾陣列的頻數佔中頻數的比例,它主要用於衡量眾數對一組資料的代表程度。異眾比率越大,說明非眾陣列的頻數佔總頻數的比重越大,眾數的代表性越差。異眾比率適合測度分類資料的離散程度,當然,對於順序資料以及數值型資料也可以計算異眾比率。
2. 順序資料:四分位差
四分位差也稱內距或四分間距,它是上四分位數與下四分位數之差
四分位差反映了中間50%的資料的離散程度,數值越小,說明中間的資料越集中,反之,則越分散。四分位差不受極值的影響。此外,由於中位數處於資料的中間位置,因此,四分位差的大小在一定程度上說明了中位數對一組資料的代表程度。**四分位差主要用於測度順序資料的離散程度。**對於數值型資料也可以計算四分位差,但它不適合分類資料。
3. 數值型資料:方差和標準差
測度數值型資料離散程度的方法主要有極差、平均差、方差和標準差,其中最常用的是方差和標準差。
- 極差:一組資料的最大值與最小值之差,也稱全距。極差是最簡單的描述資料離散程度的測度值,計算簡單,易於理解,但它容易受極端值的影響。由於極差只是利用了一組資料兩端的資訊,不能反映出中間資料的離散狀況,因而不能準確描述出資料的分散程度
- 平均差:也稱平均絕對離差,它是各變數值與其平均數離差絕對值的平均數——“平均距離”。平均差以平均數為中心,反映了每個資料與平均數的平均差異程度,它能全面準確地反映一組資料的離散狀況。平均差越大,說明資料的離散程度越大。為了避免離差之和等於零而無法計算平均差這一問題,平均差在計算時對離差取了絕對值,以離差的絕對值來表示總離差,這就給計算帶來裡的不便,因而在實際中應用較少。
- 方差和標準差:各變數值與其平均數離差平方的平均數。方差的平方根稱為標準差。方差(或標準差)能較好地反映出資料的離散程度,是應用最廣的離散程度的測度值
樣本方差是用樣本資料個數減1後去除離差平方和,其中樣本資料個數減1即n-1稱為自由度。方差開方後及得到標準差。與方差不同的是,標準差是有量綱的,它與變數值的計量單位相同,其實際意義要比方差清楚。因此,在對實際問題進行分析時更多地使用標準差。
更多解析見:
https://www.cnblogs.com/datamining-bio/p/9267759.html
4. 相對位置的度量
有了平均數和標準差之後,可以計算一組資料中各個資料的標準分數,以測度每個資料在該組資料中的相對位置,並可以用它來判斷一組資料是否有離群資料
- 標準分數:也稱標準化值或z分數,指的是變數值與其平均數的離差除以標準差後的值。
標準分數給出了一組資料中各資料的相對位置。比如,如果某個資料的標準分數為-1.5,就知道該資料比平均數低1.5個標準差。
-
經驗法則
當一組資料對稱分佈時,經驗法則表明:
至少有68%的資料在平均數±1個標準差的範圍之內;
至少有95%的資料在平均數±2個標準差的範圍之內;
至少有99%的資料在平均數±3個標準差的範圍之內;
-
切比雪夫不等式
經驗法則適合對稱分佈的資料。如果一組資料不是對稱分佈,經驗法則就不再適用,這時可使用切比雪夫不等式,它對任何分佈形態的資料都適用。切比雪夫不等式提供的是“下界”,也就是“所佔比例至少是多少”,對於任意分佈形態的資料,根據切比雪夫不等式,
至少有75%的資料在平均數±2個標準差的範圍之內;
至少有89%的資料在平均數±3個標準差的範圍之內;
至少有94%的資料在平均數±4個標準差的範圍之內;
5. 相對離散程度:離散係數
方差和標準差是反映資料離散程度的絕對值,其數值的大小
一方面受原變數值自身水平高低的影響,也就是與變數的平均數大小有關,變數值絕對水平高的,離散程度的測度值自然也就越大,絕對水平地低的,離散程度的測度值自然也就小;
另一方面,它們與原變數值的計量單位相同,採用不同計量單位計量的變數值,其離散程度的測度值也就不同。
因此,對於平均水平不同或計量單位不同的不同組別的變數值,不能用標準差直接比較其離散程度。為消除變數值水平高低和計量單位不同對離散程度測度值的影響,需要計算離散係數。
離散係數也稱變異係數,它是一組資料的標準差與其對應的平均數之比。其計算公式為:
離散係數是測度資料離散程度的統計量,主要用於比較不同樣本資料的離散程度。 離散係數越大,說明資料的離散程度越大,反之,越小。
偏態與峰態的度量
集中趨勢和離散程度是資料分佈的兩個重要特徵,但要全面瞭解資料分佈的特點,還需要知道資料分佈的形狀是否對稱、偏斜的程度以及分佈的扁平程度等。偏態和峰態就是對分佈形狀的測度。
1. 偏態及其測度
從上式可以看到,它是離差三次方的平均數再除以標準差的三次方。
- 當分佈對稱時,離差三次方後正負離差可以相互抵消,因而SK的分子等於0,則SK=0;
- 當分佈不對稱時,正負離差不能抵消,就形成了正或負的偏態係數SK。當SK為正值時,表示正離差值較大,可以判斷為正偏或右偏;反之,當SK為負值時,表示負離差值較大,可判斷為負偏或左偏。在計算SK時,將離差三次方的平均數除以標準差的三次方是為了將偏態係數轉化為相對數。SK的數值越大,表示偏斜的程度越大。
2. 峰態及其測度
總結
相關文章
- 第 14 章 CSS 顏色與度量單位CSS
- 在資料倉儲建模時,應該使用哪種資料型別的度量值資料型別
- 資料變異性的度量 - 極差、IQR、方差和標準偏差
- 第二章 相似性和相異性度量&資料&資料預處理
- 對RedHat 系統的一些概括性描述(轉)Redhat
- 資料庫查詢第5到8行的資料資料庫
- 《資料庫技術原理與應用教程第2版》——第3章資料管理中的資料模型3.1資料模型的基本概念...資料庫模型
- Scrum 的收益沒法度量?Scrum
- 第1章:大資料分析大資料
- 第9章 資料儲存
- 機器學習之常見的效能度量機器學習
- 聊聊需求的價值如何度量
- 資料結構第10章 排序資料結構排序
- 嗨,彆著急做度量,平臺工程需要先從“資料治理”開始做起
- 度量Web效能的關鍵指標Web指標
- 聊聊效能度量的作弊經濟學
- 第15 16課 資料的插入更新和刪除
- 第6章:複製資料庫之克隆開啟的risenet資料庫資料庫SENet
- #第9篇分享:python資料儲存-MySQL資料庫PythonMySql資料庫
- 距離度量學習
- 軟體測試度量
- [原創]流行防毒軟體對惡意PDF文件檢測的概括性分析防毒
- 第 4 節:基礎資料型別資料型別
- 資料結構基礎第4講資料結構
- 資料結構基礎第3講資料結構
- 第3周 3.2 資料型別1資料型別
- 第5章:可複用性的軟體構建方法 5.1可複用性的度量,形態和外部觀察
- 機器學習中的效能度量指標彙總機器學習指標
- SQL效能的度量 - CBO最佳化方式SQL
- 日本軟體開發的度量取向(轉)
- php資料流中第K大元素的計算方法PHP
- 2 Day DBA-管理方案物件-監控和優化資料庫-設定度量闕值物件優化資料庫
- Cassandra 分散式資料庫詳解,第 2 部分:資料結構與資料讀寫分散式資料庫資料結構
- 第6章:可維護性軟體構建方法 6.1可維護性的度量和構造原則
- 《汽車數字營銷新度量衡白皮書》-在後資料時代的營銷迷失中找到確定性
- 機器學習之分類問題度量機器學習
- 降維與度量學習
- 非度量多維尺度分析