皮爾森相關係數(Pearson Correlation)
皮爾森相關係數是一種最簡單的反應特徵和響應之間關係的方法。
這個方法衡量的是變數之間的線性相關性。
結果的取值區間為[-1,1]。-1表示完全的負相關,+1表示完全的正相關,0表示沒有線性相關。
皮爾森相關係數有一個明顯的缺陷就是,它只對線性關係敏感。如果關係是非線性的,哪怕兩個變數之間是一一對應的關係,皮爾森相關係數也可能接近0.
from pandas import read_csv
import numpy as np
from scipy.stats import pearsonr
def PearsonrCorrelation():
tps = read_csv('E:workfiledatatradetps.csv', header=0)
label = np.array(tps)[:, 0]
feature = np.array(tps)[:, 1:]
for i in range(0, len(feature[0])): print("第'%i'屬性的皮爾森相關係數為" % (i+1), pearsonr(label, feature[:, i]))
image.png
這是我的程式碼和資料的執行結果。
還是依照慣例,跟進去看一下原始碼和說明文字。
image.png
上面的說明資訊,皮爾森相關係數描述的是線性關係。嚴格來說,需要資料集是正態分佈的,但不必是零均值的。
從程式碼裡可以看出來,只能計算兩組資料之間的皮爾森相關係數,不能批次計算。
image.png
image.png
返回值的第一項是皮爾森相關係數,第二項是p_value值。一般來說皮爾森相關係數越大,p_value越小,線性相關性就越大。但是看到note裡講的。p_value不是完全的可靠,當資料量大於500的時候,可能是合理的。
作者:曦寶
連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/964/viewspace-2816516/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 統計學三大相關係數之Pearson相關係數、Spearman相關係數
- 三大相關係數:pearson, spearman, kendall
- 使用python一步完成相關係數計算(correlation coefficient)Python
- 偏相關係數計算
- Spark2 Dataset統計指標:mean均值,variance方差,stddev標準差,corr(Pearson相關係數),skewness偏度,kurtosis峰度Spark指標dev
- 通俗解釋協方差與相關係數
- 概率論11 協方差與相關係數
- 機率論11 協方差與相關係數
- 解讀數倉中的資料物件及相關關係物件
- 資料關係比較:相關性 vs 因果關係
- 【深度學習基礎-14】迴歸中的相關係數r和決定係數R^2深度學習
- ORA-27102: out of memory以及相關係統引數
- 數論相關
- python 計算兩個列表的相關係數的實現Python
- 資料庫 - 關係代數與關係運算資料庫
- Linux檢視相關係統資訊Linux
- 不止卡方檢驗和線性相關係數,相關性分析有6種方法
- 資料的相關性或因果關係 - KDnuggets
- 易混淆親緣關係統計量(血緣係數、親緣係數、近交係數)介紹
- 相關關係並不意味著因果關係 大資料應避免大混亂大資料
- R語言ggplot怎麼在熱圖上標註相關係數R語言
- 5G與WiFi6相愛相殺的關係WiFi
- MySQL效能相關引數MySql
- oracle 連線數相關Oracle
- 歸檔相關引數
- PostgreSQL AutoVacuum 相關引數SQL
- 基本概念(二):方差、協方差、相關係數 原點矩和中心矩
- oracle redo record scn與transaction相關block scn關係小記Oracle RedoBloC
- 【集合論】二元關係 ( 二元關係記法 | A 到 B 的二元關係 | 二元關係個數 | 二元關係示例 )
- 【組合數學】多項式定理 ( 多項式係數 | 多重集全排列 | 對應放球子模型方案數 | 多項式係數相關恆等式 )模型恆等式
- 【原創】開源Math.NET基礎數學類庫使用(11)C#計算相關係數C#
- MySQL 連線相關引數MySql
- oracle最大連線數相關Oracle
- 3.3 數學相關函式函式
- MySQL slow log相關引數MySql
- Spark的相關引數配置Spark
- 如何做好專案干係人(相關方)管理?
- job_queue_processes引數 job關係