明確解釋:機器學習與統計建模有何不同
它們彼此之間非常不同,所有資料科學家都必須瞭解原因和方式!
> Source: Inspired by a diagram from SAS Institute
這篇文章提出了一個非常重要的區別,我們應該將其理解為資料科學領域的活躍部分。 上面的維恩圖最初是由SAS Institute釋出的,但是它們的圖顯示統計和機器學習之間沒有重疊,據我所知,這是一個疏忽。 我已盡我所能和理解,重新建立了該圖。 該維恩圖非常恰當地提出了資料科學所有分支的區別和重疊。
我想相信資料科學現在是總稱,其他所有術語都可以描述為資料科學的分支,每個分支都是不同的,但與其他分支卻是如此相似!
機器學習與統計建模:這是一個古老的問題,每個資料科學家/機器學習工程師或任何在這些領域開始工作的人都會遇到。 在研究這些領域時,有時機器學習感覺與統計建模息息相關,這使我們想知道如何區分兩者,或者哪種標籤最適合哪種模型。 當然,如今機器學習已成為流行語,但這並不意味著我們開始將統計模型標記為機器學習模型,因為與流行的看法相反,它們是不同的! 讓我們詳細瞭解差異。
這篇文章的流程將是:
- 機器學習和統計建模的定義
- 機器學習與統計建模之間的差異
- 什麼時候使用?
定義
機器學習
在不依賴於基於規則的程式設計的情況下,對將資料轉換為智慧動作的計算機演算法開發感興趣的研究領域稱為機器學習。
統計建模
通常將統計模型指定為一個或多個隨機變數與其他非隨機變數之間的數學關係。 因此,統計模型是"理論的形式表示"。
現在,無聊的冗長的定義已不復存在,讓我們更深入地瞭解這兩個域之間的區別。
機器學習與統計建模之間的差異
1.歷史和學術相關性
在1950年代左右,機器學習開始出現之前,統計建模就已經出現了。1950年代,第一個機器學習程式—塞繆爾(Samuel)的檢查程式引入了。
世界各地的所有大學現在都在啟動其機器學習和AI計劃,但並沒有關閉其統計部門。
機器學習與電腦科學系和獨立的AI系協同教學,它們處理構建預測演算法,這些演算法能夠透過學習從資料中"學習"而無需任何預先指定的規則,從而能夠自行"智慧化"。 上面ML的定義。
鑑於
統計建模與數學系共同教授,其重點是建立模型,該模型可以首先找到不同變數之間的關係,然後可以預測可以描述為其他自變數的函式的事件。
2.不確定度容限
這是兩個域之間重要的區別點。
在統計建模中,我們要注意許多不確定性估計(例如置信區間,假設檢驗),並且必須考慮到所有假設都必須滿足,才能信任特定演算法的結果。 因此,它們具有較低的不確定性容限。
例如:如果我們建立了線性迴歸模型,則在使用該模型的結果之前,必須檢查是否滿足以下假設:
- 因變數和自變數之間的線性關係
- 錯誤項的獨立性
- 錯誤項(殘差)需要正態分佈
- 平均獨立
- 無多重共線性
- 需要方差
相反,如果我們建立了邏輯模型,則必須考慮以下假設:
- 二元邏輯迴歸要求因變數為二進位制,而序數邏輯迴歸要求因變數為序。
- 觀察結果必須彼此獨立。
- 無多重共線性
- 自變數和對數奇數的線性
鑑於
在機器學習演算法中,幾乎沒有或不需要假設。 ML演算法對統計線性,殘差的正態分佈等沒有嚴格要求,因此比統計模型靈活得多。因此,它們具有較高的不確定性容限。
3.資料需求與方法
統計模型無法在非常大的資料集上進行操作,它們需要屬性較少且觀測值數量可觀的可管理資料集。 在統計模型中,屬性的數量絕不會超過10–12,因為它們極易過擬合(在訓練資料集上表現出色,但在看不見的資料上表現差強人意,因為它確實非常接近訓練資料集,這是不希望出現的情況)
此外,大多數統計模型都遵循引數化方法(例如:線性迴歸,邏輯迴歸)
鑑於
機器學習演算法是學習者演算法,要學習它們需要大量資料。 因此,他們需要具有大量屬性和觀察結果的資料。 越大越好! ML演算法在某種程度上需要大資料。
此外,大多數機器學習模型都遵循非引數方法(K最近鄰,決策樹,隨機森林,梯度提升方法,SVM等)。
什麼時候使用?
這主要取決於以下說明的因素。 我們將講解理論上的要點,並舉例說明。
在以下情況下,統計模型應該是您的首選:
- 不確定性很低,因為當您開始構建模型時,大多數假設都已滿足
- 資料大小不是很大
- 如果要隔離少量變數的影響
- 總體預測中的不確定性/邊際誤差是可以的
- 各種自變數之間的相互作用相對較少,可以預先指定
- 需要高解釋性
機器學習可能是更好的選擇
- 當要預測的結果沒有很強的隨機性時; 例如,在視覺模式識別中,物件必須是E或不是E
- 可以對無限數量的精確重複進行訓練(例如,每個字母重複1000次或將某個單詞翻譯成德語)來訓練學習演算法
- 當以整體預測為目標時,無法描述任何一個自變數的影響或變數之間的關係
- 人們對估計預測中的不確定性或所選預測器的影響不是很感興趣
- 資料量巨大
- 一個不需要隔離任何特殊變數的影響
- 低可解釋性,模型成為"黑匣子"是可以的
例如:如果您與一家信用卡公司合作,並且他們想建立一個跟蹤客戶流失的模型,那麼他們很可能更喜歡一個統計模型,該模型將具有10–12個預測變數,他們可以根據自己的業務領域知識進行解釋和否決 ,在這種情況下,他們將不會喜歡黑盒演算法,因為對可解釋性的需求比預測的準確性更高。
另一方面,如果您正在為想要構建強大的推薦引擎的Netflix和Amazon之類的客戶工作,那麼在這種情況下,結果準確性的要求高於模型的可解釋性,因此,機器學習模型將 在這裡就足夠了。
有了這個,我們到這篇文章的結尾。
您可以在以下文章中瞭解有關資料探勘和機器學習之間的區別以及前4個機器學習演算法的完整詳細資訊:
- 明確解釋:機器學習與資料探勘有何不同
- 定義,混淆,區別-全部說明
- 明確解釋:4種機器學習演算法
- 定義,目的,流行演算法和用例-全部說明
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2696175/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 強化學習與其他機器學習方法有什麼不同?強化學習機器學習
- 統計機器學習機器學習
- 【機器學習】乾貨丨機器學習知識點;機器學習模型的“可解釋性”到底有多重要?機器學習模型
- 統計學和機器學習到底有什麼區別?機器學習
- 【機器學習】李宏毅——Explainable ML(可解釋性的機器學習)機器學習AI
- 統計機器學習 -- 目錄機器學習
- 機器人建模與控制複習總結機器人
- 搜尋和其他機器學習問題有什麼不同?機器學習
- 機器學習如何看世界 對抗機器學習詮釋人工智慧和人類思維的不同機器學習人工智慧
- 機器學習中貝葉斯建模和機率程式設計簡介機器學習程式設計
- 機器學習中的概率統計機器學習
- 簡明機器學習——01機器學習的幾個基本要素機器學習
- 機器學習之分類:準確率機器學習
- 1.明確你的前端學習路線與方法前端
- 吳恩達機器學習筆記 —— 12 機器學習系統設計吳恩達機器學習筆記
- 機器學習可解釋性工具箱XAI機器學習AI
- 談談機器學習模型的可解釋性機器學習模型
- ENVI新機器學習:ENVITask 使用說明機器學習
- 準確率達100%,「人機互動」機器學習,驅動有機反應精確原子對映研究機器學習
- 【機器學習】——白話入門及術語解釋機器學習
- 12 月機器學習新書:《可解釋機器學習方法的侷限》,免費下載!機器學習新書
- 機器學習全解機器學習
- 《Python機器學習建模與部署:從Keras到Kubernetes》資源連結清單Python機器學習Keras
- 【機器學習】整合學習——Bagging與隨機森林機器學習隨機森林
- [譯] 機器學習可以建模簡單的數學函式嗎?機器學習函式
- 機器學習梯度下降法,最通俗易懂的解釋機器學習梯度
- 機器學習模型可解釋性的詳盡介紹機器學習模型
- 案例版名詞解釋:機器學習中的概念漂移!機器學習
- 2018自然語言處理與機器學習論文發表統計自然語言處理機器學習
- 談談機器學習與傳統程式設計之間的區別機器學習程式設計
- 【機器學習】什麼樣的機器學習產品是最符合使用者需求的;機器學習模型的衡量不止準確率:還有精度和召回率機器學習模型
- 深入瞭解機器學習機器學習
- 【機器學習】李宏毅——何為反向傳播機器學習反向傳播
- 北大張志華:機器學習就是現代統計學機器學習
- 機器學習中資料缺失的處理及建模方法機器學習
- 一文讀懂統計學與機器學習的本質區別(附案例)機器學習
- 【機器學習】深度學習與經典機器學習的優劣勢一覽機器學習深度學習
- 機器學習之分類:精確率和召回率機器學習