卡方分佈和 Zipf 分佈模擬及 Seaborn 視覺化教程

小万哥丶發表於2024-06-04

原文網址 : https://www.cnblogs.com/xiaowange/p/18231582

視覺化

卡方分佈

簡介

卡方分佈是一種連續機率分佈，常用於統計學中進行假設檢驗。它描述了在獨立抽樣中，每個樣本的平方偏差之和的分佈。卡方分佈的形狀由其自由度 (df) 引數決定，自由度越大，分佈越平緩。

引數

卡方分佈用兩個引數來定義：

df：自由度，表示卡方分佈的形狀。自由度必須為正整數。
size：輸出陣列的形狀。

公式

卡方分佈的機率密度函式 (PDF) 為：

f(x) = (x^(df/2 - 1) * np.exp(-x/2)) / (2^(df/2) * Gamma(df/2))    for x >= 0

其中：

f(x)：表示在 x 點的機率密度。
x：非負實數。
df：自由度。
np.exp(-x/2)：指數函式。
Gamma(df/2)：伽馬函式。

生成卡方分佈資料

NumPy 提供了 random.chisquare() 函式來生成服從卡方分佈的隨機數。該函式接受以下引數：

df：自由度。
size：輸出陣列的形狀。

示例：生成 10 個自由度為 5 的卡方分佈隨機數：

import numpy as np

data = np.random.chisquare(df=5, size=10)
print(data)

視覺化卡方分佈

Seaborn 庫提供了便捷的函式來視覺化分佈，包括卡方分佈。

示例：繪製 1000 個自由度為 5 的卡方分佈隨機數的分佈圖：

import seaborn as sns
import numpy as np

data = np.random.chisquare(df=5, size=1000)
sns.distplot(data)
plt.show()

練習

模擬 20 個自由度為 10 的卡方分佈隨機數，並繪製它們的分佈圖。
比較不同自由度下卡方分佈形狀的變化。
利用卡方分佈來進行卡方檢驗，假設某枚硬幣是公平的，即正面朝上的機率為 0.5。拋擲硬幣 100 次，並計算正面朝上的次數是否服從二項分佈。

解決方案

import seaborn as sns
import numpy as np
from scipy import stats

# 1. 模擬隨機數並繪製分佈圖
data = np.random.chisquare(df=10, size=20)
sns.distplot(data)
plt.show()

# 2. 比較不同自由度下分佈形狀的變化
df_values = [2, 5, 10, 20]
for df in df_values:
    data = np.random.chisquare(df=df, size=1000)
    sns.distplot(data, label=f"df={df}")
plt.legend()
plt.show()

# 3. 進行卡方檢驗
heads = np.random.binomial(n=100, p=0.5)
chi2_stat, p_value = stats.chisquare(heads, f_exp=50)
print("卡方統計量:", chi2_stat)
print("p 值:", p_value)

# 由於 p 值大於 0.05，無法拒絕原假設，即可以認為硬幣是公平的。

瑞利分佈

簡介

瑞利分佈是一種連續機率分佈，常用於描述訊號處理和雷達系統中的幅度分佈。它表示在一個隨機變數的平方根服從指數分佈時，該隨機變數的分佈。

引數

瑞利分佈用一個引數來定義：

scale：尺度引數，控制分佈的平坦程度。較大的尺度引數使分佈更加平坦，兩側尾部更加分散。預設為 1。

公式

瑞利分佈的機率密度函式 (PDF) 為：

f(x) = (x scale) / (scale^2 np.exp(-x^2 / (2 scale^2)))    for x >= 0

其中：

f(x)：表示在 x 點的機率密度。
x：非負實數。
scale：尺

Zipf分佈

簡介

Zipf分佈，又稱為Zeta分佈，是一種離散機率分佈，常用於描述自然語言、人口統計學、城市規模等領域中具有冪律特徵的資料分佈。它體現了“少數服從多數”的現象，即排名越靠前的元素出現的頻率越高。

引數

Zipf分佈用一個引數來定義：

a：分佈引數，控制分佈的形狀。a越小，分佈越偏向於少數元素，越接近冪律分佈。預設為 2。

公式

Zipf分佈的機率質量函式 (PMF) 為：

P(k) = 1 / (k ^ a)    for k >= 1

其中：

P(k)：表示第 k 個元素出現的機率。
k：元素的排名，從 1 開始。
a：分佈引數。

生成Zipf分佈資料

NumPy提供了random.zipf()函式來生成服從Zipf分佈的隨機數。該函式接受以下引數：

a：分佈引數。
size：輸出陣列的形狀。

示例：生成10個服從Zipf分佈的隨機數，分佈引數為2：

import numpy as np

data = np.random.zipf(a=2, size=10)
print(data)

視覺化Zipf分佈

Seaborn庫提供了便捷的函式來視覺化分佈，包括Zipf分佈。

示例：繪製1000個服從Zipf分佈的隨機數的分佈圖，分佈引數為2：

import seaborn as sns
import numpy as np

data = np.random.zipf(a=2, size=1000)
sns.distplot(data)
plt.show()

練習

模擬不同分佈引數下Zipf分佈形狀的變化。
利用Zipf分佈來模擬一個城市的規模分佈，並計算排名前10的城市人口占總人口的比例。
比較Zipf分佈與冪律分佈的異同。

解決方案

import seaborn as sns
import numpy as np

# 1. 模擬不同分佈引數下Zipf分佈形狀的變化
a_values = [1.5, 2, 2.5, 3]
for a in a_values:
    data = np.random.zipf(a=a, size=1000)
    sns.distplot(data, label=f"a={a}")
plt.legend()
plt.show()

2. 模擬城市規模分佈並計算人口比例

population = np.random.zipf(a=2, size=100)
top10_population = population[:10].sum()
total_population = population.sum()
print("排名前10的城市人口:", top10_population)
print("排名前10的城市人口比例:", top10_population / total_population)

3. Zipf分佈與冪律分佈的比較

Zipf分佈和冪律分佈都描述了“少數服從多數”的現象，即排名越靠前的元素出現的頻率越高。

但是，Zipf分佈的引數化程度更高，可以更精確地描述不同領域的冪律現象。冪律分佈則更通用，但缺乏Zipf分佈對引數的控制能力。

具體來說，Zipf分佈的PMF為：

P(k) = 1 / (k ^ a)

冪律分佈的PMF為：

P(k) = C / k ^ alpha

其中，C為歸一化常數。

可見，Zipf分佈的引數a控制了分佈的傾斜程度，而冪律分佈的引數alpha則控制了分佈的整體形狀。

此外，Zipf分佈通常用於描述離散資料，而冪律分佈則可以用於描述離散和連續資料。

最後

為了方便其他裝置和平臺的小夥伴觀看往期文章：

微信公眾號搜尋：Let us Coding，關注後即可獲取最新文章推送

看完如果覺得有幫助，歡迎點贊、收藏、關注

多項分佈模擬及 Seaborn 視覺化教程
2024-06-03
視覺化
NumPy 均勻分佈模擬及 Seaborn 視覺化教程
2024-05-30
視覺化
NumPy 泊松分佈模擬與 Seaborn 視覺化技巧
2024-05-29
視覺化
NumPy 正態分佈與 Seaborn 視覺化指南
2024-05-23
視覺化
NumPy 二項分佈生成與 Seaborn 視覺化技巧
2024-05-27
視覺化
資料視覺化Seaborn從零開始學習教程（三）資料分佈視覺化篇
2019-03-01
視覺化
NumPy 隨機資料分佈與 Seaborn 視覺化詳解
2024-05-21
隨機視覺化
$\Beta$分佈推導與視覺化
2023-04-14
視覺化
卡方分佈定理的證明
2024-12-10
Python 視覺化 | Seaborn5 分鐘入門 (三)——boxplot 和 violinplot
2020-01-17
Python視覺化
Python 視覺化 | Seaborn5 分鐘入門 (四)——stripplot 和 swarmplot
2020-01-17
Python視覺化Swarm
Python 視覺化 | Seaborn5 分鐘入門 (一)——kdeplot 和 distplot
2020-01-17
Python視覺化
Python 視覺化 | Seaborn5 分鐘入門 (五)——lmplot
2020-01-17
Python視覺化
Python 視覺化 | Seaborn5 分鐘入門 (七)——pairplot
2020-01-17
Python視覺化AI
視覺化佈局模組開發分享
2018-10-08
視覺化
全自動化資料洞察！資料分佈對比視覺化！⛵
2022-12-16
視覺化
（在模仿中精進資料視覺化04）舊金山街道樹木分佈視覺化
2020-11-22
視覺化
（在模仿中精進資料視覺化07）星球研究所大壩分佈視覺化
2021-01-27
視覺化
Python獲取好友地區分佈及好友性別分佈
2019-07-10
Python
程式虛擬空間分佈
2022-03-13
概率演算法_二項分佈和泊松分佈
2018-08-24
演算法
目標檢測和影像分類及其相關計算機視覺的影像分佈
2018-10-08
計算機視覺
Python 視覺化 | Seaborn5 分鐘入門 (六)——heatmap 熱力圖
2020-01-17
Python視覺化
python 資料視覺化：直方圖、核密度估計圖、箱線圖、累積分佈函式圖
2023-11-18
Python視覺化直方圖函式
特殊分佈律篇6——萊斯分佈
2020-10-09
玻爾茲曼能量分佈律及麥克斯韋速度分佈推導
2024-05-12
動態分佈與靜態分佈的區別
2024-07-17
數理統計6：泊松分佈，泊松分佈與指數分佈的聯絡，離散分佈引數估計
2021-02-04
PRML 概率分佈
2022-02-21
概率分佈
3分鐘tips：高斯分佈和高斯積分的關係
2018-04-06
[Python輿情分析] 二.時間間隔分佈研究及冪律分佈圖繪製
2019-01-24
Python
MVC+EFCore 完整教程18 -- 升級分佈檢視至 View Component
2019-07-24
MVCView
垃圾箱分佈
2020-10-22
概率論——常用分佈
2021-10-11
位置分佈圖怎麼畫，怎麼做網點分佈圖
2021-08-05
多元統計分析04：多元正態分佈的抽樣分佈
2021-11-05
數理統計11：區間估計，t分佈，F分佈
2021-02-16
【翻譯】擬合與高斯分佈 [Curve fitting and the Gaussian distribution]
2021-07-21

卡方分佈和 Zipf 分佈模擬及 Seaborn 視覺化教程

卡方分佈

簡介

引數

公式

生成卡方分佈資料

視覺化卡方分佈

練習

解決方案

瑞利分佈

簡介

引數

公式

Zipf分佈

簡介

引數

公式

生成Zipf分佈資料

視覺化Zipf分佈

練習

解決方案

2. 模擬城市規模分佈並計算人口比例

3. Zipf分佈與冪律分佈的比較

最後

相關文章