一個完整的機器學習專案在Python中的演練（二）

磐創AI發表於2018-10-11

原文網址 : http://blog.itpub.net/31555081/viewspace-2216049/

編譯 | 磐石

出品 | 磐創AI技術團隊

【磐創AI導讀】：本文主要介紹了本系列的第三項特徵工程與特徵選擇。歡迎大家點選上方藍字關注我們的公眾號：磐創AI。（本系列第一篇：點選檢視）

大家往往會選擇一本資料科學相關書籍或者完成一門線上課程來學習和掌握機器學習。但是，實際情況往往是，學完之後反而並不清楚這些技術怎樣才能被用在實際的專案流程中。就像你的腦海中已經有了一塊塊”拼圖“（機器學習技術），你卻不知道如何講他們拼起來應用在實際的專案中。如果你也遇見過同樣的問題，那麼這篇文章應該是你想要的。本系列文章將介紹一個針對真實世界實際資料集的完整機器學習解決方案，讓您瞭解所有部分如何結合在一起。

本系列文章按照一般機器學習工作流程逐步進行：

1. 資料清洗與格式處理

2. 探索性資料分析

3. 特徵工程和特徵選取

4. 機器學習模型效能指標評估

5. 微調最佳模型（超引數）

6. 在測試集上評估最佳模型

7. 解釋模型結果

8. 總結分析

通過完成所有流程，我們將看到每個步驟之間是怎麼聯絡起來的，以及如何在Python中專門實現每個部分。該專案可在GitHub上可以找到，附實現過程。第二篇文章將詳細介紹第三個步驟，其餘的內容將在後面的文章中介紹。

特徵工程和特徵選擇

特徵工程和特徵選擇雖然是完成機器學習專案中很小的一個環節，但它模型最終的表現至關重要。在特徵工程與特徵選擇階段做的工作都會準時在模型的表現上得以體現。首先，讓我們來了解一下這兩項任務是什麼：

特徵工程：特徵工程是一項獲取原始資料並提取或建立新特徵的過程。也就是說可能需要對變數進行轉換。例如通過取自然對數、取平方根或者對分類變數進行獨熱（one-hot）編碼的方式以便它們可以在模型中更好的得以利用。通常來說，特徵工程就是通過對原始資料的一些操作構建額外有效特徵的過程。（詳細介紹可參考：https://machinelearningmastery.com/discover-feature-engineering-how-to-engineer-features-and-how-to-get-good-at-it/）
特徵選擇：特徵選擇是一項選擇資料中與任務最相關的特徵的過程。在特徵選擇的過程中，我們通過刪除無效或重複的資料特徵以幫助模型更好地學習和總結資料特徵並建立更具可解釋性的模型。通常來說，特徵選擇更多的是對特徵做減法，只留下那些相對重要的特徵。（詳細介紹可參考：https://machinelearningmastery.com/an-introduction-to-feature-selection/）

因為機器學習模型只能從我們提供的資料中學習特徵，所以確保資料包含我們任務的所有相關資訊至關重要。如果我們沒有給模型提供正確的資料，那麼機器學習模型將不會達到我們所期望的表現。

在本專案中，我們將按照以下步驟完成特徵工程：

獨熱（one-hot）編碼分類變數（borough和 property use type）
對數值變數做自然對數轉換並作為新特徵新增到原始資料中

獨熱（one-hot）編碼對於在模型訓練中包含分類變數是必要的。例如：機器學習演算法無法理解“辦公室”這種建築型別，因此如果建築物是辦公室，則必須對其進行將其記錄為1，否則將其記錄為0。

新增轉換的特徵可以使我們的模型學習到資料中的非線性關係。取平方根、取自然對數或各種各樣的數值轉換是資料科學中特徵轉換的常見做法，並通過領域知識或在多次實踐中發現最有效的方法。這裡我們將對所有數值特徵取自然對數並新增到原始資料中。

下面的程式碼實現了數值特徵選擇並對這些特徵進行了取對數操作，選擇兩個分類變數並對這些特徵進行獨熱(one-hot)編碼、然後將兩列特徵連線在一起。這一系列操作可以通過pandas庫很快捷的實現。

一個完整的機器學習專案在Python中的演練（二）

完成上述操作之後，我們有110列（features）、總共超過11,000個物件（buildings）。但是，這些特徵並非所有都能夠對預測能源之星得分（ENERGY STAR Score)有用，所以接下來我們將通過特徵選擇去除一些變數。

特徵選擇

在上面做特徵工程的過程之後得到的資料中的110列特徵，許多都是多餘或重複的，因為它們彼此高度相關。

例如，下圖是Site EUI與Weather Norm EUI相關係數為0.997的情況。

一個完整的機器學習專案在Python中的演練（二）

那些相互之間有很強關聯性的特徵被稱為共線（collinear）https://en.wikipedia.org/wiki/Multicollinearity，而且消除這些“特徵對”中的一個變數通常可以使機器學習模型更魯棒並且具有更強的可解釋性。（需要注意的一點是，現在是在討論特徵與其他特徵的相關性，而不是與目標的相關性。）

有許多方法可以計算特徵之間的共線性(collinearity)，其中最常見的是方差膨脹因子(VIF)。在本專案中，我們將使用相關係數來識別和刪除共線特徵。如果它們之間的相關係數大於0.6，我們將放棄一對特徵中的一個。

一個完整的機器學習專案在Python中的演練（二）

也許你會認為這個值（0.6）是隨便定義的，其實並不是，而是通過多次嘗試不同的閾值比較後得到的。使用0.6這個值可以產生了最好的模型。機器學習是一個經驗性領域，通常是通過試驗發現效能最好引數組合。選擇特徵後，我們剩下64列特徵和1列目標特徵（能源之星得分）。

一個完整的機器學習專案在Python中的演練（二）

建立基線

我們現在已經完成了資料清洗，探索性資料分析和特徵工程，開始建立模型之前還需要做最後一步：建立一個初步的基線（baseline）。這實際上是設定一項可以用來核對我們最終模型的實際表現的預估表現。我們可以通過拿最終模型表現與預估模型表現做比較反過來評測此次專案的整體思路。如果機器學習模型的最終表現沒有超越我們的預估表現，那麼我們可能不得不得出如下結論：