線性迴歸是一種用於預測和建模的統計方法,旨在透過建立輸入變數(特徵)與輸出變數(目標)之間的線性關係來進行分析。下面我們透過一個簡單易懂的例子來說明線性迴歸的詳細過程。
例子:預測房價
假設你是一名房地產經紀人,想要根據房子的面積(平方英尺)來預測房子的價格(美元)。
1. 收集資料
首先,收集一些房子的面積和對應的價格資料,如下表所示:
面積(平方英尺) | 價格(美元) |
---|---|
800 | 150,000 |
1000 | 180,000 |
1200 | 210,000 |
1500 | 250,000 |
2000 | 300,000 |
2. 資料視覺化
將資料繪製成散點圖,橫軸為面積,縱軸為價格。這樣可以直觀地看到隨著面積增加,價格是否呈現線性關係。
3. 建立線性迴歸模型
線性迴歸模型的形式是:
其中:
- yy 是目標變數(房價)。
- xx 是自變數(面積)。
- β0 是截距(當面積為0時的房價)。
- β1 是斜率(每增加一個平方英尺,房價增加的金額)。
4. 模型訓練
我們的目標是找到最佳的 β0β0 和 β1β1 值,使得實際房價與預測房價之間的差異最小。這通常透過最小二乘法實現,即最小化以下損失函式:
這裡,nn 是資料點的數量,yiyi 是實際房價,xixi 是對應的房屋面積。
假設經過計算,我們得到了以下引數:
這個模型表示為:
5. 預測
現在我們可以用這個模型來預測房價。例如,如果一個房子的面積是1,300平方英尺,我們可以代入公式進行預測:
計算得:
因此,預測這個房子的價格大約為212,500美元。
6. 模型評估
為了評估模型的效果,我們可以使用R²值,即決定係數,來衡量模型對資料的擬合程度。R²值介於0和1之間,越接近1表示模型越能解釋資料的變異。
7. 總結
線性迴歸是一種簡單且有效的預測工具,透過建立自變數與因變數之間的線性關係,能夠幫助我們進行預測。整個過程包括資料收集、模型建立、引數學習和預測等步驟。透過這個例子,我們可以看到線性迴歸如何在實用的場景中應用,幫助我們做出更好的決策。