分享2個超實用的線性迴歸分析操作教程,有手就會!

思邁特Smartbi發表於2021-12-28

資料探勘有很多重要的方法,線性迴歸分析就是其中之一。我們在高中和大學都有接觸過線性迴歸的概念,這裡就不贅述了。本文也不會涉及到有關數學理論方面的知識,還是以應用場景、操作方法的介紹為主。

 

01.png 


一、應用場景

首先,一起來了解一下線性迴歸分析的作用。在我們的日常生活中,線性迴歸分析是會被常常用到的。運用線性迴歸分析,我們可以瞭解到兩組資料間有沒有存在相關性。如,當我們想知道廣告費用的投入對銷售額增長的影響程度時,就可以運用。公司應不應該加大廣告費投入,如果未來投入一定的廣告費用,預測銷售額可以達到多少…這一系列問題都可以通過線性迴歸分析去得出答案。

 

02應用場景.png 

線性迴歸分析方法運用的前提是要具備兩組以上的資料,然後就可以開始應用檢驗啦。下面給大家演示一下線性迴歸分析的方法、操作過程,用到的工具是Python。

 

二、Python實現過程

第1步:資料匯入

首先要做的就是把本地的EXCEL或者CSV檔案讀取到Python裡,我們可以引用pandas庫去讀取資料:

 

03讀取資料.png 

待資料讀取成功後,我們需要對資料進行確認,用到的方法是將列印資料與EXCEL資料進行對比:

 

04對比.png  

第2步:計算相關係數

如上文所說,線性迴歸分析的前提是要有2組資料。在數學上通常是用皮爾遜相關係數來進行檢驗,這個數值越接近1,就代表兩組資料越具有相關性,我們可以用corr這個函式來對廣告費以及銷售額進行檢驗:



05檢驗.png 

 

然後,列印data1,可見相關係數的值就已經得出了。資料為0.93,與1非常接近,有資料可知這2組資料的相關性是非常高的:

 

06相關性.png   

第3步:畫圖

為了更加直觀地對這兩組資料進行呈現,我們可以畫一個散點圖,接入matplotlib,X軸為廣告費用,Y軸為銷售額設定。接著利用plot()函式來畫圖,最後利用show()函式進行圖表呈現:

 

07圖表呈現.png 

列印一下,我們看看圖形的效果,從圖中可以看中,散點圖點排列基本在一條直線上的,由此可知廣告費用與銷售額是呈正相關的,廣告費用越多,銷售額也會隨之增長,這也對我們上面計算出來的相關係數提供了一個非常好的佐證:

 

08佐證.png

第4步:建立線性迴歸模型

用y=ks+b公式表示線性迴歸的方程,X為自變數、Y為因變數、K為斜率、b為直線在軸上的截距。接入sklearn庫,對著上面的資料建立線性迴歸模型,sklearn庫主要是進行機器學習。先利用LinearRegression()物件定義,再利用fit()函式對X、Y的值進行模型訓練,最後輸出coef_,代表k值、是intercept_,代表b值兩個資料:

 

09資料.png 

 

輸出後的資料如下,k是17.3,b是291.9:

 

10 kb.png 

利用score()函式對模型的擬合程度進行檢驗,當數值越接近1,就代表該模型的擬合程度越好:

 

11擬合程度.png 

計算結果出來了,0.879,已經非常接近1了,可見模型的擬合程度很好,能投入到實際應用中去使用:

 

12實際應用.png 

第5步:資料預測

k和b的值也出來了,現在只需要x的值就能夠推算得出y值資料,現在我們可以利用這個原理去對資料進行預測。這裡可以利用predict()函式接入一個引數對資料進行預測,例如下面我們看看廣告費在20萬的時候,銷售額預計會有多少:

 

13銷售額預測.png 

 

最後算出來的銷售額是638萬:

 

14銷售額.png 

 

三、後續建議

從python的實現過程來看,通過寫程式碼的形式能夠實現線性迴歸分析的整個過程,但是畢竟大部分小夥伴都沒有接觸過這門程式語言,如果真要用python去做的話可能會難度比較大。那麼有沒有更加簡潔一點的方法呢?當然有!再給大家介紹一個更加簡便的方法,用到的工具是smartbi。

 

15工具smartbi.png 

當前介面為資料探勘介面,工具欄位於介面的左邊,可以看到工具欄上的元件有很多。這個也就是ETL工作介面,ETL常應用於資料清洗上。ETL的資料來源治理能力非常出色。如果把ETL和資料探勘結合起來,必然可以大幅提高資料分析的效率。

 

16效率.png 

 

第一步要做的是先把資料來源讀取到ETL的介面裡,我們可以把EXCEL檔案這個元件拖拽進來,並把上面的廣告費用的EXCEL檔案讀取進來:

 

17讀取.png 

 

如果EXCEL檔案中存在著多個sheet,還需要把讀取Excelsheet這個元件拖拽進來,並讀取您的目標sheet:

 

18sheet.png 

完成資料讀取後,預覽資料來源:

 

19資料來源.png 

接下來是廣告費用、銷售額的相關係數計算,將相關性分析的元件拖拽進來,將其和上面的元件進行連線:

 

20連線.png 

滑鼠選中相關係分析,在右邊的待選列裡把銷售額和廣告費用選中,並移動到右邊:

 

21相關係分析.png 

檢視輸出效果,只需要點選廣告費用、銷售額的中間區域,相關性係數為0.94。該資料與Python計算結果一致:

 

22計算結果.png 

 

由於篇幅有限,散點圖、資料預測等其他功能實現的方法就不多做介紹了,有興趣的小夥伴可以自行去研究一下。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69965912/viewspace-2849657/,如需轉載,請註明出處,否則將追究法律責任。

相關文章