資料科學的下一個「超能力」：模型可解釋性

機器之心發表於2019-03-27

原文網址 : http://www.jiqizhixin.com/articles/2019-03-27-9

資料科學模型

很多人重視重視模型的預測能力，卻忽略了模型可解釋性的重要性，只知其然而不知其所以然。為什麼說模型的可解釋性這麼重要呢？作者就 5 個方面對此進行了闡述。

模型的可解釋效能夠展示你的模型在學什麼，並且觀察模型內部比大多數人想的更有用。

在過去的 10 年間，我採訪了許多資料科學家，模型的可解釋性是我最喜歡的主題，我用它來區分最好的資料科學家和一般的資料科學家。

有些人認為機器學習模型是黑箱，能做出預測但無法理解；可是最好的資料科學家可以通過任何模型洞察真實世界。給出任何模型，這些資料科學家都可以輕鬆地回答下面的問題：

模型認為資料中最重要的特徵是什麼
就模型的任何單個預測結果而言，資料中的每個特徵是如何影響這一預測結果的
特徵之間什麼樣的相互作用對模型預測產生的影響最大

這些問題的答案比大多數人認為的要有意義。受此啟發，我在 Kaggle 上開設了模型可解釋性的微課程。無論你是通過 Kaggle 還是其他的綜合性資源（比如《統計學習基礎（Elements of Statistical Learning）》）進行學習，這些技術都將徹底地改變你構建、驗證和部署機器學習模型的方式。

為什麼這些洞察結果很有價值？

模型洞察結果的五個最重要應用是：

除錯
指導特徵工程
指導未來資料的收集方向
指導人類做出決策
建立信任

除錯

這個世界中存在很多不可靠的、雜亂無章且具有大量噪聲的資料。當你寫下預處理程式碼時，你就新增了潛在的錯誤源頭。加上目標洩漏的可能性，在真實的資料科學專案中，在某個點出現錯誤是正常的，而非例外。

鑑於錯誤的頻率以及潛在的災難性後果，除錯成為了資料科學中最有價值的技能之一。理解模型正在尋找的模式有助於你確定模型何時與你對現實世界的瞭解不一致，這一般都是追蹤錯誤的第一步。

指導特徵工程

特徵工程一般是提高模型準確率的最有效方法。特徵工程通常包括轉換原始資料或之前建立的特徵來反覆建立新特徵。

有時候你可以僅憑對基本主題的直覺來完成這個過程。但是當原始特徵有 100 多個或者你缺乏手頭專案的背景知識時，你就需要更多指導了。

Kaggle 競賽中有道題是關於預測貸款違約的，這就是一個極端的例子。這道題中有 100 多個原始特徵。出於隱私原因，這些特徵沒用常見的英文名字，而是用 f1、f2、f3 這樣的代號命名的。這就模擬了一個你不怎麼了解原始資料的場景。

一名參賽者發現了 f527~f528 這兩個特徵之間的差異，從而建立了強大的新特徵。將這一差異作為特徵的模型比沒有這個特徵的模型要好得多。但是當變數有數百個時，你怎麼能想到建立這個變數呢？

你在這門課程中學到的技巧能讓你輕易分辨出 f527 和 f528 是重要特徵，而且它們是有緊密關聯的。這會指導你考慮轉換這兩個變數，從而找到 f527-f528 的「黃金特徵」。

現在的資料集動輒就有成百上千個原始特徵，因此這個方法的重要性與日俱增。

指導未來資料的收集方向

你無法控制線上下載的資料集。但許多使用資料科學的企業和組織都有機會擴大他們收集資料的型別。收集新型別的資料又貴又不方便，所以他們只會收集值得費力氣的資料。基於模型的洞察結果可以讓你更好地理解當前特徵的價值，這將幫助你推斷出哪些新價值是最有用的。

指導人類做出決策

有些決策是由模型自動做出的——當你登入亞馬遜時，網站沒有人在倉促間決定給你展示什麼內容。但是有很多重要的決定必須要由人類來做。就這些決策而言，模型的洞察能力比預測能力更有價值。

建立信任

在沒有驗證基本事實的情況下，人們不會相信你的模型，也就不會根據你的模型做出重要的決策。就資料出錯的頻率而言，這是明智的預防措施。在實踐中，展示符合他們一般認知的洞察結果有助於建立使用者對模型的信任，即便這些使用者對資料科學知之甚少也沒關係。

原文連結：https://towardsdatascience.com/why-model-explainability-is-the-next-data-science-superpower-b11b6102a5e0

人工智慧下一個前沿：可解釋性
2020-04-11
人工智慧
深度學習模型可解釋性初探
2018-10-13
深度學習模型
談談機器學習模型的可解釋性
2021-07-29
機器學習模型
機器學習模型可解釋性的詳盡介紹
2019-10-30
機器學習模型
深度學習的可解釋性研究（一）：讓模型「說人話」
2018-05-30
深度學習模型
相信你的模型：初探機器學習可解釋性研究進展
2020-02-03
模型機器學習
KDD 2019論文解讀：多分類下的模型可解釋性
2019-08-28
模型
資料系統的基石：可靠性、可擴充套件性和可維護性+資料儲存與檢索的模型
2021-12-17
套件模型
線性模型是否真的能給出一個很好的解釋？
2021-09-09
模型
機器學習可解釋性工具箱XAI
2019-02-08
機器學習AI
做資料科學領域的「召喚師」，組織一場人人可參與的資料科學比賽
2019-04-20
資料科學
Google新作：注意力機制是否真的能夠提供模型的可解釋性？
2020-12-03
Go模型
著陸資料科學工作的8個技巧！
2018-11-06
資料科學
資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
【機器學習】李宏毅——Explainable ML(可解釋性的機器學習)
2022-12-22
機器學習AI
資料科學
2021-09-09
資料科學
如何解決機器學習樹整合模型的解釋性問題
2019-10-20
機器學習模型
深度學習可解釋性差到底是什麼意思？
2019-03-06
深度學習
盤點5個常用的Python資料科學庫！
2022-09-30
Python資料科學
【機器學習】乾貨丨機器學習知識點；機器學習模型的“可解釋性”到底有多重要？
2018-03-14
機器學習模型
理工大學大資料應用的三個學科
2018-06-15
大資料
《精通資料科學：從線性迴歸到深度學習》
2019-12-17
資料科學深度學習
機器學習解釋模型：黑盒VS白盒（附資料連結）
2019-04-11
機器學習模型
10個資料科學家常犯的程式設計錯誤（附解決方案）
2019-05-24
資料科學程式設計
3 個用於資料科學的頂級 Python 庫
2018-10-04
資料科學Python
資料科學新人需要知道的13個雷區
2019-02-19
資料科學
Python中非常有用的三個資料科學庫
2021-08-25
Python資料科學
資料科學必備基礎之線性迴歸
2022-12-08
資料科學
Anaconda 釋出2018年資料科學調查報告
2018-06-19
資料科學
產品資料分析師的頭銜是否可重新命名為“資料科學家”？ - Reddit
2022-04-28
資料科學
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
關於HDFS的資料可見性
2019-08-22
首席說|NLP場景應用中的可解釋性
2019-04-22
2022年學習資料科學的技巧：
2021-12-23
資料科學
未來資料科學家必備的【核心演算法】與【常用模型】
2018-05-10
資料科學演算法模型
Python---資料科學領域常用的15個Python包
2018-09-07
Python資料科學
資料科學、資料工程學習路線
2022-05-07
資料科學
資料分析師、資料科學家、大資料專家三個職位的區別
2018-06-11
資料科學大資料

資料科學的下一個「超能力」：模型可解釋性

相關文章