終於有人把工資拖後腿的原因找到了,此文把平均數、中位數和眾數全講明白了

搭建bc介面API系統演示發表於2022-04-28

有人統計過一家網際網路公司的季度財報。結果顯示,該公司職員的平均工資是其他同事的3 ~ 4倍。訊息一出來,立刻引起了人們的熱議。後來該公司傳出傳聞,公開報酬費用包括職員教育、福利費、稅金繳納、商業保險、年終獎,但沒有讓大眾信服。人們關心的問題是:平均工資計算方法合理嗎?

可以想象,如果把正式職工和世界首富的工資放在一起平均,普通人的工資幾乎可以忽略不計。在一家企業裡,20%的人佔工資總額的80%。高收入者的比例很少,但對平均工資的影響很大。

平均工資只是經濟領域的一個例子。在生活中,我們可以接觸到各種資料,它們以不同的形式表達。處理資料集時,平均值可以很好地表示該資料集的平均水平,但如果透過削峰填補山谷,部分資訊將丟失,只能反映整個要素的一個方面。

要想掌握資料的全貌,就要知道資料的屬性和性質。對於資料集,我們首先要知道大部分資料落在哪裡。也就是說,通常選擇資料的“中間位置”,即反映資料集趨勢的統計資料,以表示資料的中心。這裡的測量方法有平均值、中位數、群眾人數等。

01平均

平均值,也稱為平均值,是統計學中定義一組最基本、最常用的資料特徵的指標,用於描述資料的平均水平。計算平均值後,可以將所有資料相加,再除以資料數。例如,{1,2,3,4,5}的平均值為3。

平均值是描述資料集最有用的統計量,但並不總是衡量資料中心的最佳方法。最大的問題是,平均值對極端值(如偏離)敏感,受極低或高數值的影響很大。為了抵消這些影響,可以使用中端平均值。也就是說,可以放棄一些高和低的極端值,計算平均值。例如,在跳水比賽中,採用減去最高分和最低分的結束平均分數法。(威廉莎士比亞,潛水,潛水,潛水,潛水,潛水,潛水,潛水)。

02中值

中值描述了資料按大小順序排列後位於中間位置的渠道資料的中間級別。如果有奇數,則中間值為中間值。如果是偶數,中間值通常採用兩個中間值的平均值。適用於傾斜(不對稱)資料測量。

03重水

重水是集合中最常出現的數字,描述了資料的一般水平。群眾人數不一定是唯一的。資料集可能有多個重水,也可能沒有重水。群眾人數不僅適用於數字資料,也適用於非數字資料。例如,{蘋果、蘋果、蘋果、香蕉、梨、梨}這個資料組沒有平均值和中值,但有重水蘋果。04群眾數、中位數、平均關係

如果資料集的平均值、中值和中位數是相同的數字,則資料分佈是對稱的。但是,這種情況並不常見,如圖2-1所示,資料通常是正斜率或負斜率。

圖2-1群眾數、中位數、平均關係

收入資料是典型的偏向資料,大多數人是工薪階層或退休老人,億萬富翁只有少數。收入資料是圖2-1中所示的正傾斜資料,大多數人的收入集中在左邊,右邊是代表幾個人收入的長尾。這種分佈不適合用平均值來描述。因為平均值對極端資料非常敏感,一兩個億萬富翁提高了總人口的收入水平,收入平均值遠高於人們認知的平均收入。

平均工資消除了大量低收入人群和少數鉅額收入人群的差異。但是換成重水也不合適。因為低收入階層佔工資比率的大多數區間。統計工資時,合理的選擇是統計中位數,這暴露了一半和另一半收入之間的分界線。(威廉莎士比亞,溫斯頓,工資,工資,工資,工資,工資)。

當然,中間值並不是比平均值更好的統計量,但它更適合於工資統計。

引入統計的意義在於簡化。例如,老師說子女的考試排名在班級中達到10%,你要認識到他的學習成績不太好。學習要更加努力。(約翰f肯尼迪,教育)在這個過程中,你不需要知道關於考試本身的什麼內容,也不需要知道孩子在考試中到底答對了多少題。排名可以知道孩子的學習水平。

但是,統計量的簡化不可避免地導致部分資訊丟失,優點也是缺點。很多現象不能用一個數字來解釋。如果只用一個統計量來描述物件有限制,就要努力獲得更多的資料和更多的細節。

作者:西城,某商業銀行IT技術負責人,畢業於上海交通大學,在IT技術領域工作10多年,對技術發展、人工智慧有獨到見解,專注於智慧運維(AIOps)、資料視覺化、容量管理等領域。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017243/viewspace-2889279/,如需轉載,請註明出處,否則將追究法律責任。

相關文章