6個你必須知道的機器學習的革命性的教訓

AIBigbull2050發表於2019-12-19

原文網址 : http://blog.itpub.net/69946223/viewspace-2669396/

機器學習

2019-12-15 12:15:25

作者 | James Warner

編譯 | ronghuaiyang

來源 | 轉載自AI公園（ ID:AI_Paradise)

【導讀】機器學習是未來，因為它將廣泛應用於計算機和其他領域。儘管如此，開發有效的機器學習應用需要大量的“黑魔法”，這在手冊中很難找到。

在機器人技術、智慧家電、智慧零售店、自動駕駛汽車技術等的推動下，我們正步入一個新時期。機器學習是所有這些新時代技術進步的前沿。在不久的將來，自動化機器的發展將使得機器與人類智慧相當甚至超過人類智慧。機器學習無疑是下一個“大”事件。而且，人們相信，未來的大多數技術都將與之掛鉤。

為什麼機器學習這麼重要？

機器學習非常重要，因為它有助於預測人類無法預測的行為和模式。機器學習有無數非常有用的實際應用。通過機器學習，有可能管理以前令人困惑的場景。在理解了具有高效泛化能力的機器學習模型之後，可以使用它做出相應的重要決策。機器學習使個人能夠根據大量場景做出決策。顯然，現在還不能編寫出能夠用於所有新場景的程式碼。

人工智慧能夠執行各種需要學習和判斷的活動。從自動駕駛汽車、投資銀行、許多醫療相關功能到招聘，人工智慧已經被用於完成不同領域的各種任務。

6 個關於機器學習的革命性教訓

機器學習演算法能夠簡單地從場景中泛化，得到執行必要任務的方法。這樣更切實可行和而且具有成本效益，然而，手工程式設計並不那麼具有成本效益和可行性。“可用資料”數量的增加肯定會導致出現更多的與獲取資料相關的問題。因此，機器學習是未來，因為它將廣泛應用於計算機和其他領域。儘管如此，開發有效的機器學習應用需要大量的“黑魔法”，這在手冊中很難找到。

以下是關於機器學習最有價值的 6 個經驗教訓：

1. 泛化是核心

機器學習最基本的特徵之一是，演算法必須從訓練的資料中泛化出該領域中所有不可見場景的完整領域，以便在使用模型時能夠做出正確的推斷。這個泛化的過程需要我們用來訓練模型的資料有一個我們希望演算法去學習的，像樣的和可靠的對映。資料的質量越好，表達能力越高，模型就越容易理解從輸入到輸出的未知的和基本的“真實”對映。泛化是指從某種精確的東西轉向某種廣泛的東西。

機器學習演算法是從歷史場景中自動簡化的技術。它們有能力在更大的資料量和更快的速度上進行泛化。

所有機器學習初學者最常犯的錯誤就是對訓練資料進行測試，然後看起來像是成功了。如果在新資料上嘗試所得到分類器，它通常不會比隨機猜測更好。所以，如果你想要開發一個分類器，一定要留一些資料做測試。同時，用你的分類器對測試資料進行測試。

2. 學習=表示+評估+優化

機器學習演算法分為 3 個部分，表示、評估和優化

表示：資料需要以合適的演算法形式輸入。對於文字分類，可以從全文輸入中提取特徵，並將其變為 bag-of-words 的表示形式。相反，選擇一種表示方法與選擇它可能學習的分類器集是同義詞。這個集合稱為學習者的假設空間。

評估：這是一個幫助我們理解我們正在做什麼的度量。需要一個評估過程來區分好分類器和不好的分類器。如果你可以給測試集預測出一個數字，例如測試集的大小為 n，在這裡，你可以計算平均絕對誤差，甚至可以選擇使用均方根誤差。

3. 只有資料是不夠的！

泛化是主要目的，但主要關注的是，無論數量多少，僅有資料是不夠的。但是，幸運的是，我們想掌握的功能並不是從所有可計算的功能中統一得出的！即使是最一般的假設（包括平滑度，具有類似類的相似示樣本，不充分的依存關係或受限制的複雜度）也足以正常執行，這是使機器學習如此強大的主要原因之一。基本上，所有初學者都聯合瞭解大資料來製作應用程式。

4. 小心過擬合

如果資料不充分，不能完全訓練好一個分類器，我們可能最終得到的是隻在訓練集上有用的分類器。這個問題被稱為 overfitting，它被認為是 ML 的一個麻煩事。發現自己的模型過擬合了是有用的，但並不能解決這個問題。你得想辦法擺脫它。幸運的是，你有很多選擇去嘗試。交叉驗證有助於防止過擬合。訓練更多的資料，正則化，刪除特徵，早期停止，整合是一些其他的防止過擬合的方法。

5. 特徵工程是成功的關鍵

特徵工程是利用資料的核心領域知識來開發使機器學習演算法更好工作的特徵的技術。如果處理得當，它可以通過從原始資料中開發特徵來增強演算法的預測能力。這些特徵簡化了整個機器學習過程。利用幾個獨立的特徵，很好地與類相關，然後讓學習變得容易。

6. 準確性&簡單性是不一樣的

奧卡姆剃刀(Occam’s razor)精闢地指出，實體的增加不應超出要求。這意味著兩個分類器有相似的訓練誤差，兩個分類器中較簡單的可能有最低的測試誤差。每一個機器學習專案都應該以你希望回答的業務問題為目標。你應該從制定分析的主要成功原則開始。

應用 Occam’s razor 並選擇最容易解釋、闡明、部署和管理的模型是構建強大的機器學習程式的關鍵步驟。建議選擇最簡單的、足夠精確的模型，但是，要確保你深入瞭解這個問題，以瞭解“足夠精確”在實踐中意味著什麼。

英文原文：

https://bigdata-madesimple .com/6-revolutionary-things-to-know-about-machine-learning/

https://www.toutiao.com/i6770514830110491150/

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/69946223/viewspace-2669396/，如需轉載，請註明出處，否則將追究法律責任。

關於機器學習你必須瞭解的十個真相
2018-10-03
機器學習
你必須知道的 SmartSql ！
2019-04-25
SQL
機器學習教會我們的6個道理
2018-05-08
機器學習
學習 Java 語言，你必須知道的 Java 簡史
2021-03-27
Java
學習前端你必須知道的JavaScript 基礎和HTML DOM
2018-07-15
前端JavaScriptHTML
學習Kali Linux必須知道的幾點
2018-11-26
Linux
這幾個python常用的庫你必須知道！
2020-08-26
Python
LLM部署，你必須要知道的幾個技巧！
2024-11-20
?你必須知道的Java泛型
2019-12-24
Java泛型
職場科普，Python這6個字典操作你必須知道！
2019-05-06
Python
經驗&教訓分享：我的第一個機器學習專案
2020-01-06
機器學習
你必須知道的HTTP基本概念
2019-03-02
HTTP
你必須要知道的babel二三事
2020-09-14
Babel
檔案管理，你必須要知道的三個要點
2019-10-31
Python常用的開源框架，這三個你必須知道!
2021-06-15
Python框架
配音技巧 | 學配音必須要知道的幾個技巧
2020-10-19
初學Python必須知道的11個知識點！
2021-10-21
Python
機器學習的命脈：自定義資料集的6個關鍵步驟，你知道幾個？
2022-08-04
機器學習
using 你知道多少？你必須知道的.NET讀書筆記
2019-05-11
筆記
3款你必須知道的爬蟲工具
2018-05-03
爬蟲
.Net Core 你必須知道的source-generators
2024-03-16
函式你必須知道的三種角色？
2019-09-18
函式
C#.NET 中你必須知道的反射
2020-06-10
C#反射
敲黑板：InnoDB的Double Write，你必須知道
2020-11-03
你必須知道的Java基礎知識
2020-09-08
Java
is 和 as 讀你必須知道的.net 筆記
2019-05-11
筆記
你必須要知道的HTTP協議原理
2020-12-10
HTTP協議
經驗教訓：Instacart 的實時機器學習之旅 - shu
2022-09-09
機器學習
【網路安全】你必須知道的幾個網路安全概念
2022-01-13
搭建Prometheus平臺，你必須考慮的6個因素
2020-06-02
Prometheus
Vue開發必須知道的36個技巧
2023-03-02
Vue
關於Http協議，你必須要知道的
2019-01-19
HTTP協議
Python 這10個字典操作你必須知道
2019-05-05
Python
學習web前端你必須要了解的主流框架!
2021-05-26
Web前端框架
機器學習的教訓：5家公司分享的錯誤經驗
2018-12-27
機器學習
想要學習Python課程，這些問題你必須知道!
2019-12-16
Python
New的幾個問題詳解 --讀你必須知道的.NET筆記
2019-05-11
筆記
關於Mysql事務，你必須知道的幾個知識點！
2021-06-28
MySql