學習PHP中統計擴充套件函式的使用

else發表於2021-09-09

做統計相關係統的朋友一定都會學習過什麼正態分佈、方差、標準差之類的概念,在 PHP 中,也有相應的擴充套件函式是專門為這些統計相關的功能所開發的。我們今天要學習的 stats 擴充套件函式庫就是這類操作函式。當然,本身我並沒有做過什麼類似的系統,對這些概念也是一知半解,所以今天學習的內容也只是基於個人的理解以及原來稍微接觸過的一些內容。不過據說 Python 在這方面就相對來說會更加強大一些,畢竟是萬能膠水語言,而且也是在統計領域獲得成功之後才慢慢被大眾接受的一門語言,有興趣的同學可以自己研究一下。

stats 擴充套件的安裝也非常地簡單,直接使用正常的擴充套件安裝方式就可以了。而且它不需要額外的其他系統中元件的支援,非常方便。

0-1之間的隨機數

首先我們來看一個和統計關係不大的函式。

var_dump(stats_rand_ranf()); // float(0.32371053099632)

普通的 rand() 和 mt_rand() 函式都是返回從 0 到 getrandmax() 之間的整數。而這個 stats_rand_ranf() 返回的則是 0 到 1 之間的小數。除了這個函式之外,還有 stats_rand_ 開頭的其它一些函式,是用於返回正態分佈之類的隨機值的,大家有對統計學瞭解的可以自行查閱文件。

方差、標準差

方差和標準差這兩個概念應該相對來說更簡單和普遍一些。像我真正的專業是心理學,在心理統計中,就有方差的和標準差的計算,而且也是考試的必考內容。不過這塊的內容也非常簡單,我們在使用函式後也會使用自己計算的程式碼來展示方差和標準差的計算公式。

// 1,3,9,12
// 平均數:(1+3+9+12)/4 = 6.25

// 方差
var_dump(stats_variance([1,3,9,12])); // float(19.6875)
// 方差公式:(1-6.25)^2+(3-6.25)^2+(9-6.25)^2+(12-6.25)^2)/4
var_dump((pow(1-6.25, 2)+pow(3-6.25, 2)+pow(9-6.25,2)+pow(12-6.25,2))/4); // float(19.6875)

平均數對於很多統計計算都很有用,是很多演算法的基本資料之一。所以我們先準備好一個平均數,主要是為了我們後面的手動計算使用。其實,方差和標準差也是很多其它計算的基礎資料。

stats_variance() 函式就是用於計算一組資料的方差。它接收的是一個陣列引數,計算的內容也就是資料裡面資料的值。關於方差的公式其實就是每一個資料減去平均數以後平方,然後全部加起來之後再除以資料的數量。

可以看到計算的結果和我們直接呼叫 stats_variance() 函式的結果是一樣的。

// 標準差
var_dump(stats_standard_deviation([1,3,9,12])); // float(4.4370598373247)
var_dump(stats_standard_deviation([1,3,9,12], true)); // float(5.1234753829798)
// 標準差:開方((1-6.25)^2+(3-6.25)^2+(9-6.25)^2+(12-6.25)^2)/4)
// 樣本標準差:開方((1-6.25)^2+(3-6.25)^2+(9-6.25)^2+(12-6.25)^2)/(4-1))

var_dump(sqrt((pow(1-6.25, 2)+pow(3-6.25, 2)+pow(9-6.25,2)+pow(12-6.25,2))/4)); // float(4.4370598373247)
var_dump(sqrt((pow(1-6.25, 2)+pow(3-6.25, 2)+pow(9-6.25,2)+pow(12-6.25,2))/3)); // float(5.1234753829798)

標準差的計算其實就是對於方差結果開方後再除以資料的數量。它有兩種形式,一種是直接除以數量,一種是除以數量減一,分別就叫做 標準差 和 樣本標準差 。可以看到直接使用 stats_standard_deviation() ,並且指定它的第二個引數就可以方便地切換這兩種標準差的計算結果。並且比自己手寫的計算也方便很多。

平均偏差、調和平均數、階乘

平均偏差一般指的是數列中各項數值與其算術平均數的離差絕對值的算術平均數。我的天啊,這概念都讀得好繞口,學統計的小夥伴們你們過得還好嗎?當然,在 stats 擴充套件中一個函式就搞定了。

// 平均偏差
var_dump(stats_absolute_deviation([1,3, 9, 12])); // 4.25

// ((6.25-1)+(6.25-3)+(9-6.25)+(12-6.25))/4
//(5.25+3.25+2.75+5.75)/4 = 4.25

stats_absolute_deviation() 函式用於計算平均偏差,其實上面的概念就是我在註釋中寫的公式。每個資料減平均數之後的絕對值再除以資料數量就可以了,直接看公式是不是比上面的概念要清晰很多。同樣,我們再看下調和平均數。

// 調和平均數
var_dump(stats_harmonic_mean([1, 3, 9, 12])); // float(2.6181818181818)
// 4/(1/1+1/3+1/9+1/12) = 2.6181818181818

stats_harmonic_mean() 用於計算一組資料的調和平均數。從下面註釋的計算公式中可以看出來嗎?調和平均數就是每個資料倒數相加之後再使用資料數量除以倒數和得到的結果。

最後就來個輕鬆一點的,一個可以直接計算階乘結果的函式。

var_dump(stats_stat_factorial(6)); // float(720)
// 1*2*3*4*5*6 = 720

這個函式相信不用多解釋了吧。

峰度、偏度、累積正態分佈函式、機率密度

這些概念其實我也沒有接觸過了。不過就是測試了一下函式程式碼可以使用而已。相關的函式還有很多,比如我們這裡只是與正態分佈相關的一些函式,還有 F分佈 、t分佈 、柯西分佈、卡方分佈 等等相關的計算函式。我承認我只聽說過一兩個的名字,還有很多甚至連名字都沒聽說過。

// 峰度
var_dump(stats_kurtosis([1, 3, 9, 12])); // float(-1.6960846560847)

// 偏度
var_dump(stats_skew([1, 3, 9, 12])); // float(0.091222998923078)


// 返回正態分佈的累積分佈函式、其逆函式或其引數之一
var_dump(stats_cdf_normal(14,5,10, 1));
// 返回第一個引數的機率密度
var_dump(stats_dens_normal(14, 5, 10));

其它的各種分佈相關計算的函式大家有需要的可以查閱相關的文件,這裡我就不強行上車了,上車了估計也得開溝裡去。

總結

在沒有刷官方文件前確實不知道我們 PHP 中都已經有這樣的擴充套件存在了,還在想如果真的要做類似的統計系統使用 PHP 一定很會麻煩,所以大家才會去選擇其它語言。其實這些擴充套件早就存在了。好不好用不說,但使用 PHP 來做這類統計系統的例子確實並不是太多,有需要的東西還是要自己多研究研究。而且這類計算其實都是各種公式的混合,相信在 Composer 中也有不少好用的框架可以供我們使用而不需要再到系統中單獨安裝擴充套件。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2318/viewspace-2796805/,如需轉載,請註明出處,否則將追究法律責任。

相關文章