機器學習——簡單線性迴歸(上)

loveliuzz發表於2017-09-13

1、前提介紹

為什麼需要統計量?——統計量:描述資料特徵

(1)集中趨勢衡量

a:均值(平均數、平均值)(mean),公式如下:

舉例:{6,2,9,1,2} 均值為:(6+2+9+1+2)/ 5 = 4

b、中位數(median):將資料中的各個值按照大小順序排列,居於中間位置的變數。

舉例:{6,2,9,1,2}

給上上面的數排序:1,2,2,6,9

找出中間位置的數:2

當n為奇數時,直接取位置處於中間的變數;當為偶數時,取中間兩個量的平均值。

c、眾數(mode):資料中出現次數最多的數

舉例:{6,2,9,1,2} 眾數取2

(2)離散程度衡量

a、方差(variance),公式以及舉例如下:


b、標準差(standard deviation)

2、知識簡介

(1)迴歸(regression)

因變數Y為連續數值型(continuous numerical variable),如:房價、人數、降雨量

(2)分類(classification)

因變數Y為類別型(categorical variable),如:顏色類別、電腦品牌、有無信譽

3、簡單線性迴歸(Simple Linear Regression)

很多做決定過程通常是根據兩個或者多個變數之間的關係,迴歸分析(regression analysis)用來建立方程模擬兩個或者多個變數之間如何關聯

被預測的變數叫做:因變數(dependent variable),Y,輸出(output);被用來進行預測的變數叫做:自變數(independent variable),x,輸入(input)。

總結:簡單線性迴歸包含一個自變數(x)和一個因變數(y),這兩個變數的關係用一條直線來模擬。

如果包含兩個以上的自變數叫做:多元迴歸分析(multiple regression)。

4、簡單線性迴歸模型

(1)被用來描述因變數(y)與自變數(x)以及偏差(error)之間的關係的方程叫做:迴歸模型

(2)簡單線性迴歸模型是:,其中,是引數,通過它們描述x和y的關係,是誤差(隨機因素的值)。

5、簡單線性迴歸方程

對原始的簡單線性迴歸模型左右兩邊求期望值,由於滿足隨機正態分佈,其期望值為0,得到簡單線性迴歸方程為:

這個方程對應的影像是一條直線,稱作:迴歸線。其中,是迴歸線的截距,是迴歸線的斜率,是在一個給定x值下y的期望值(均值)

6、正向線性關係

負向線性關係

無關係

7、估計的簡單線性迴歸方程

這個方程叫做:估計線性方程(estimated regression line)。

其中,是估計線性方程的縱截距,估計線性方程的斜率,是在自變數x等於一個給定的值時,因變數y的估計值。

8、線性迴歸方程分析流程

注:的區別:

x,y變數真實的關係的引數,是在全體資料下的一個真實關係的引數

是特定的資料下,總體資料中的樣本的關係的引數,是對真實模型的一個估計值

9、關於偏差的假定

(1)是一個隨機的變數,均值為0

(2)的方差(variance)對所有的自變數x都是一樣的

(3)的值是獨立分佈的

(4)滿足正態分佈


相關文章