資料分析與挖掘 - R語言:多元線性迴歸

獵手家園發表於2016-05-25

一個簡單的例子!
環境:CentOS6.5
Hadoop叢集、Hive、R、RHive,具體安裝及除錯方法見部落格內文件。

 

線性迴歸主要用來做預測模型。

1、準備資料集:

X       Y
0.10    42.0 
0.11    43.5 
0.12    45.0 
0.13    45.5 
0.14    45.0 
0.15    47.5 
0.16    49.0
0.17    53.0
0.18    50.0
0.20    55.0
0.21    55.0
0.23    60.0
> s=read.table("test-1.txt", header = F)

 

2、確定線性迴歸函式:Y = β0 + β1X + ε

其中β0 + β1X 表示Y隨X的變化而線性變化的部分;ε是隨機誤差,是一切不確定因素的總和,其值不可測。

 

3、使用R語言中的lm()函式求解

> x=s$V1
> y=s$V2
> lm.sol<-lm(y ~ 1+x)
> summary(lm.sol)

指標1:Pr(>|t|) 表示P– 值,即機率值。***說明極為顯著, **說明高度顯著, *說明顯著, .說明不太顯著,沒有記號為不顯著。

指標2:R-Squared: 0.9481 的值越大越好,至少應該在0.8以上。

 

4、繪製圖形

> plot(x,y)
> abline(lm.sol)

5、作出預測

> z=data.frame(x=0.24)
> predict(lm.sol, z)

預測結果為:

       1 
59.89318 

 

相關文章