一個簡單的例子!
環境:CentOS6.5
Hadoop叢集、Hive、R、RHive,具體安裝及除錯方法見部落格內文件。
線性迴歸主要用來做預測模型。
1、準備資料集:
X Y
0.10 42.0
0.11 43.5
0.12 45.0
0.13 45.5
0.14 45.0
0.15 47.5
0.16 49.0
0.17 53.0
0.18 50.0
0.20 55.0
0.21 55.0
0.23 60.0
> s=read.table("test-1.txt", header = F)
2、確定線性迴歸函式:Y = β0 + β1X + ε
其中β0 + β1X 表示Y隨X的變化而線性變化的部分;ε是隨機誤差,是一切不確定因素的總和,其值不可測。
3、使用R語言中的lm()函式求解
> x=s$V1 > y=s$V2 > lm.sol<-lm(y ~ 1+x) > summary(lm.sol)
指標1:Pr(>|t|) 表示P– 值,即機率值。***說明極為顯著, **說明高度顯著, *說明顯著, .說明不太顯著,沒有記號為不顯著。
指標2:R-Squared: 0.9481 的值越大越好,至少應該在0.8以上。
4、繪製圖形
> plot(x,y)
> abline(lm.sol)
5、作出預測
> z=data.frame(x=0.24)
> predict(lm.sol, z)
預測結果為:
1 59.89318