如果有足夠的訓練資料，機器學習模型可以表現出色。不幸的是，對於許多應用程式來說，對高質量資料的訪問仍然是一個障礙。

　　解決這個問題的一個方法是“資料增強”，這是一種從現有的訓練樣本中生成新的訓練樣本的技術。資料增強是一種在資料約束環境下提高機器學習模型效能和準確性的低成本和有效的方法。

　　 機器學習模型的“過度擬合”

　　當機器學習模型在有限的例子上進行訓練時，它們往往會“過度擬合”。當機器學習模型對其訓練示例執行準確，但不能推廣到未見資料時，就會發生“過度擬合”。

　　在機器學習中有幾種方法可以避免“過度擬合”，比如選擇不同的演算法、修改模型的結構和調整引數。但最終，解決“過度擬合”的主要方法是向訓練資料集新增更多高質量資料。

　　例如，考慮卷積神經網路(CNN)，這是一種機器學習架構，特別適合於影像分類任務。如果沒有大量多樣的訓練例子，CNN最終會在現實世界中對影像進行錯誤分類。另一方面，如果CNN接受不同角度和不同光照條件下的物體影像訓練，它在現實世界中識別物體的能力會變得更加強大。

　　然而，收集額外的培訓示例可能是昂貴的、耗時的，有時甚至是不可能的。這一挑戰在監督學習應用程式中變得更加困難，因為訓練示例必須由人類專家標記。

　　 資料增加

　　增加訓練資料集多樣性的方法之一是建立現有資料的副本，並對其進行小的修改。這被稱為“資料增強”。

　　例如，假設在影像分類資料集中有20張鴨子的影像。通過建立鴨子影像的副本並水平翻轉它們，您已經將“鴨子”類的訓練示例增加了一倍。您可以使用其他轉換，如旋轉、剪下、縮放和轉換。您還可以結合這些轉換來進一步擴充套件獨特的訓練示例集合。

　　資料擴充不需要侷限於幾何操作。新增噪點、改變顏色設定和其他效果(如模糊和銳化濾鏡)也可以幫助將現有的訓練示例作為新的資料。

資料擴充的例子

　　資料增強對於監督學習特別有用，因為您已經有了標籤，不需要額外的工作來註釋新的示例。資料增強對於其他型別的機器學習演算法也很有用，如無監督學習、對比學習和生成模型。

　　資料增強已經成為訓練計算機視覺應用的機器學習模型的標準實踐。流行的機器學習和深度學習程式設計庫具有易於使用的函式，可以將資料增強整合到機器學習訓練管道中。

　　資料增強不僅侷限於影像，還可以應用於其他型別的資料。對於文字資料集，可以用它們的同義詞替換名詞和動詞。在音訊資料中，可以通過新增噪聲或改變播放速度來修改訓練示例。

　　 資料擴充的限制

　　資料增強並不是解決所有資料問題的靈丹妙藥。您可以將其視為機器學習模型的免費效能增強器。基於您的目標應用程式，您仍然需要具有足夠示例的相當大的訓練資料集。

　　在某些應用程式中，訓練資料可能太過有限，無法通過資料擴充來提供幫助。在這些情況下，必須收集更多的資料，直到達到最小閾值，才能使用資料增強。有時，您可以使用遷移學習，即您在一個通用資料集(例如ImageNet)上訓練機器學習模型，然後通過微調其針對目標應用程式的有限資料的更高層次來重新利用它。

　　資料增強也不能解決其他問題，比如訓練資料集中存在的偏差。資料擴充過程還需要進行調整，以解決其他潛在的問題，例如類不平衡。

　　如果使用得當，資料管理可以成為機器學習工程師工具箱中的一個強大工具。

什麼是資料增強？

相關文章