分享2個超實用的線性迴歸分析操作教程,有手就會!
資料探勘有很多重要的方法,線性迴歸分析就是其中之一。我們在高中和大學都有接觸過線性迴歸的概念,這裡就不贅述了。本文也不會涉及到有關數學理論方面的知識,還是以應用場景、操作方法的介紹為主。
一、應用場景:
首先,一起來了解一下線性迴歸分析的作用。在我們的日常生活中,線性迴歸分析是會被常常用到的。運用線性迴歸分析,我們可以瞭解到兩組資料間有沒有存在相關性。如,當我們想知道廣告費用的投入對銷售額增長的影響程度時,就可以運用。公司應不應該加大廣告費投入,如果未來投入一定的廣告費用,預測銷售額可以達到多少…這一系列問題都可以通過線性迴歸分析去得出答案。
線性迴歸分析方法運用的前提是要具備兩組以上的資料,然後就可以開始應用檢驗啦。下面給大家演示一下線性迴歸分析的方法、操作過程,用到的工具是Python。
二、Python實現過程:
第1步:資料匯入
首先要做的就是把本地的EXCEL或者CSV檔案讀取到Python裡,我們可以引用pandas庫去讀取資料:
待資料讀取成功後,我們需要對資料進行確認,用到的方法是將列印資料與EXCEL資料進行對比:
第2步:計算相關係數
如上文所說,線性迴歸分析的前提是要有2組資料。在數學上通常是用皮爾遜相關係數來進行檢驗,這個數值越接近1,就代表兩組資料越具有相關性,我們可以用corr這個函式來對廣告費以及銷售額進行檢驗:
然後,列印data1,可見相關係數的值就已經得出了。資料為0.93,與1非常接近,有資料可知這2組資料的相關性是非常高的:
第3步:畫圖
為了更加直觀地對這兩組資料進行呈現,我們可以畫一個散點圖,接入matplotlib,X軸為廣告費用,Y軸為銷售額設定。接著利用plot()函式來畫圖,最後利用show()函式進行圖表呈現:
列印一下,我們看看圖形的效果,從圖中可以看中,散點圖點排列基本在一條直線上的,由此可知廣告費用與銷售額是呈正相關的,廣告費用越多,銷售額也會隨之增長,這也對我們上面計算出來的相關係數提供了一個非常好的佐證:
第4步:建立線性迴歸模型
用y=ks+b公式表示線性迴歸的方程,X為自變數、Y為因變數、K為斜率、b為直線在軸上的截距。接入sklearn庫,對著上面的資料建立線性迴歸模型,sklearn庫主要是進行機器學習。先利用LinearRegression()物件定義,再利用fit()函式對X、Y的值進行模型訓練,最後輸出coef_,代表k值、是intercept_,代表b值兩個資料:
輸出後的資料如下,k是17.3,b是291.9:
利用score()函式對模型的擬合程度進行檢驗,當數值越接近1,就代表該模型的擬合程度越好:
計算結果出來了,0.879,已經非常接近1了,可見模型的擬合程度很好,能投入到實際應用中去使用:
第5步:資料預測
k和b的值也出來了,現在只需要x的值就能夠推算得出y值資料,現在我們可以利用這個原理去對資料進行預測。這裡可以利用predict()函式接入一個引數對資料進行預測,例如下面我們看看廣告費在20萬的時候,銷售額預計會有多少:
最後算出來的銷售額是638萬:
三、後續建議
從python的實現過程來看,通過寫程式碼的形式能夠實現線性迴歸分析的整個過程,但是畢竟大部分小夥伴都沒有接觸過這門程式語言,如果真要用python去做的話可能會難度比較大。那麼有沒有更加簡潔一點的方法呢?當然有!再給大家介紹一個更加簡便的方法,用到的工具是smartbi。
當前介面為資料探勘介面,工具欄位於介面的左邊,可以看到工具欄上的元件有很多。這個也就是ETL工作介面,ETL常應用於資料清洗上。ETL的資料來源治理能力非常出色。如果把ETL和資料探勘結合起來,必然可以大幅提高資料分析的效率。
第一步要做的是先把資料來源讀取到ETL的介面裡,我們可以把EXCEL檔案這個元件拖拽進來,並把上面的廣告費用的EXCEL檔案讀取進來:
如果EXCEL檔案中存在著多個sheet,還需要把讀取Excelsheet這個元件拖拽進來,並讀取您的目標sheet:
完成資料讀取後,預覽資料來源:
接下來是廣告費用、銷售額的相關係數計算,將相關性分析的元件拖拽進來,將其和上面的元件進行連線:
滑鼠選中相關係分析,在右邊的待選列裡把銷售額和廣告費用選中,並移動到右邊:
檢視輸出效果,只需要點選廣告費用、銷售額的中間區域,相關性係數為0.94。該資料與Python計算結果一致:
由於篇幅有限,散點圖、資料預測等其他功能實現的方法就不多做介紹了,有興趣的小夥伴可以自行去研究一下。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965912/viewspace-2849657/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料分析:線性迴歸
- 線性迴歸實戰
- 線性迴歸-如何對資料進行迴歸分析
- pytorch實現線性迴歸PyTorch
- TensorFlow實現線性迴歸
- python實現線性迴歸之簡單迴歸Python
- 線性迴歸
- spss迴歸分析的基本步驟 spss線性迴歸怎麼做SPSS
- 用Python實現線性迴歸,8種方法哪個最高效?Python
- 知否,知否,線性迴歸基礎教程值得擁有
- 有監督學習——線性迴歸
- 線性迴歸與邏輯迴歸邏輯迴歸
- 手把手教你做線性迴歸分析,實用且通俗易懂!
- 【pytorch_5】線性迴歸的實現PyTorch
- 線性迴歸——lasso迴歸和嶺迴歸(ridge regression)
- 1.3 - 線性迴歸
- AutoGPT:有手就會的安裝教程GPT
- PRML 迴歸的線性模型模型
- 線性迴歸 go 語言實現Go
- Pytorch 實現簡單線性迴歸PyTorch
- 線性迴歸推導
- 4-線性迴歸
- 1維線性迴歸
- 線性迴歸總結
- 多元線性迴歸模型模型
- SixSigma工具 | 多重線性迴歸的適用條件
- 採用線性迴歸實現訓練和預測(Python)Python
- 對比線性迴歸、邏輯迴歸和SVM邏輯迴歸
- 大資料分析筆記 (4.1) - 線性迴歸分析(Linear Regression)大資料筆記
- spark-mlib線性迴歸Spark
- 線性迴歸-程式碼庫
- 線性迴歸演算法演算法
- R:alpha多樣性線性迴歸
- 一文帶你深入分析:線性迴歸模型的線性假設分析及其意義模型
- 5. `sklearn`下的線性迴歸
- 機器學習 | 線性迴歸與邏輯迴歸機器學習邏輯迴歸
- 線性迴歸—求解介紹及迴歸擴充套件套件
- 【機器學習】線性迴歸python實現機器學習Python