如何改進手上的機器學習模型

weixin_34124651發表於2017-07-13

機器學習模型

假如，你手頭上正有一個機器學習的專案。你通過各種渠道手機資料，建立你自己的模型，並且得到了一些初期的結果。你發現，在你的測試集上你只有80%的正確率，這遠遠地低於你的預期。現在怎麼辦，你怎麼來改進你的模型？

你需要更多的資料嗎？或者建立個更復雜的模型？還是說調整正則引數？加減特徵？迭代更多次？不然全來一遍吧？

最近我的一個朋友也這麼問我，他覺得改進模型就是全憑運氣。這促使我決定寫這篇文章，來告知應該怎麼做一個有資訊量，有意義的舉措。

1. 偏差和方差

為了構建一個準確的模型，我們首先要了解模型帶來的各種誤差。

偏差：偏差誤差是來源於模型的期望（平均）預測數值與真實數值之間的差值。

方差：對於一個給定的數值，模型預測結果的變異（波動）程度。

1.1 數學定義

這個誤差能夠被拆分成偏差和方差兩個組成部分：

必不可少的誤差來源於誤差項，任何模型都不能夠徹底地解決。只有給定問題本身的真實模型和無窮大的資料來修正它，我們能夠讓偏差和方差項都變成零。然而，在一個沒有完美的模型和無窮的資料的世界裡，我們必須要在減小偏差和方差中權衡。

2. 什麼是學習曲線

現在我們知道權衡偏差和誤差這件事了，但是如何改進我們的模型仍然有待考究。我們的模型面對嚴重偏離和高度變異的時候應該怎麼處理？我們需要繪製模型的學習曲線來解答這個問題。

2.1 嚴重偏離

2.2 高度變異

3. 下一步做什麼？

我們已經明白，問題往往出在偏差或者方差上。這時候，我們要根據不同的情況，做出不同的抉擇。

3.1 嚴重偏離

3.2 高度變異

4.機器學習流程

大多數的機器學習系統都是由一個模型鏈組成的。通常情況下都會有一種困境，你已經有了一個機器學習的管道，但是接下來一步應該做什麼呢？上限分析在這裡很有幫助。

上限分析每一次在管道中的某一部分中插入一個完美的版本，並且由此來測度我們所觀察到的完整的管道能夠有多大的提升。這種方法能夠幫助我們明白在整個模型鏈中，哪一步能夠帶來最可觀的優化。

比如說上述的文字識別的管道（模型鏈），你發現一個完美的字元分割模型能夠給整個識別系統提升1%，但是一個完美的字元識別模型能夠提升7%。所以相比於改進字元分割模型，我們應該更關注字元識別模型的改進。

更多課程和文章盡在微訊號：「datartisan資料工匠」

如何管理機器學習模型
2019-01-12
機器學習模型
機器學習6-迴歸改進
2021-01-21
機器學習
改進大語言模型的最全方法！
2024-09-13
模型
如何對SAP Leonardo上的機器學習模型進行重新訓練
2019-07-24
機器學習模型
機器學習如何徹底改變運輸
2020-10-10
機器學習
神經網路進化能否改變機器學習？
2018-04-18
神經網路機器學習
一些改進模型速度/精度的工程方法
2020-04-06
模型
多維灰色預測模型的一點改進
2020-12-25
模型
模型評估與改進：交叉驗證
2022-05-26
模型
如何改進你的指令碼程式
2021-11-14
指令碼
成熟機器學習系統持續改進面臨的問題 - danshiebler
2021-11-10
機器學習
機器學習入門(三) — 迴歸模型(進階案例)
2018-12-07
機器學習模型
機器學習模型
2024-03-30
機器學習模型
進一步改進GPT和BERT：使用Transformer的語言模型
2019-05-01
GPTORM模型
相信你的模型：初探機器學習可解釋性研究進展
2020-02-03
模型機器學習
Meta：透過機器學習和因果推理改進 Instagram 通知管理
2022-11-07
機器學習
NOISEDIFFUSION: 改進基於擴散模型的球面線性插值
2024-05-02
模型
你的手上會戴什麼：進入安卓可穿戴時代
2014-03-20
安卓
機器學習模型的特性總結
2012-03-21
機器學習模型
MIT新開發的 AI 模型有望改進惡性腦瘤治療
2018-08-14
MITAI模型
如何解決機器學習樹整合模型的解釋性問題
2019-10-20
機器學習模型
新手上路之如何選擇Java版本
2020-12-02
Java
五大方面：機器學習如何在不久的將來改變教育
2020-03-25
機器學習
欺騙機器學習模型
2018-04-06
機器學習模型
如何應用Kaizen改進當前流程？
2022-08-04
AI
分散式機器學習中的模型聚合
2021-12-02
分散式機器學習模型
機器學習中的模型和資料
2016-11-08
機器學習模型
機器學習和統計模型的差異
2016-01-21
機器學習模型
機器學習導圖系列（5）：機器學習模型及神經網路模型
2019-04-11
機器學習模型神經網路
如何建立企業級別的機器學習模型伺服器？- kdnuggets
2020-09-16
機器學習模型伺服器
AWS 推出五項機器學習新服務，重塑和改進企業日常任務，無需機器學習經驗
2019-12-04
機器學習
騰訊AI Lab提出翻譯改進模型Transformer的3個優化方法
2018-10-24
AI模型ORM優化
如何使用JavaScript控制檯改進工作流程
2018-07-14
JavaScript
你會如何改進這個演算法？
2022-04-05
演算法
機器學習之模型選擇
2020-02-14
機器學習模型
機器學習之模型診斷
2020-02-14
機器學習模型
機器學習之模型評估
2019-06-21
機器學習模型
機器學習——決策樹模型
2023-12-26
機器學習模型