全文共1691字,預計學習時長6分鐘
當你踏上機器學習之旅時,搞清楚監督學習和無監督學習是你應該做的第一件事。而對於新手而言,“監督學習和無監督學習有什麼區別?”,是最為常見不過的問題。
其答案在於理解機器學習演算法的本質。如果沒有明確監督學習和無監督學習之間的區別,你的學習之旅將無法前行。
如果sSDBQIF不瞭解線性迴歸、邏輯迴歸、聚類、神經網路等演算法的適用範圍,就沒法直接進入模型構建階段。
如果不知道機器學習演算法的目標是什麼,就無法建立一個精確的模型。這就是監督學習和無監督學習的由來。
本文就將幫你解決這個問題,再友情奉送另一個關鍵問題:如何決定何時使用監督學習或無監督學習?
什麼是監督學習?
在監督學習中,計算機通過示例學習。它從過去的資料中學習,並將學習的結果應用到當前的資料中,以預測未來的事件。在這種情況下,輸入和期望的輸出資料都有助於預測未來事件。
為了準確預測,將輸入資料標記為正確答案。
監督機器學習分類
重要的是,要記住:所有監督學習演算法本質上都是複雜演算法,分為分類或迴歸模型。
1.迴歸模型—迴歸模型用於輸出變數為實際值的問題,例如單一的數字、美元、薪水、體重或壓力。它最常用於根據先前的觀測資料來預測數值。一些比較常見的迴歸演算法包括線性迴歸、邏輯迴歸、多項式迴歸和脊迴歸。
2.分類模型—分類模型用於可以對輸出變數進行分類,例如“是”或“否”、“通過”或“失敗”。分類模型用於預測資料的類別。現實生活中的例子包括垃圾郵件檢測、情緒分析、考試記分卡預測等。
監督學習演算法在現實生活中有一些非常實際的應用,包括:
· 文字分類
· 垃圾郵件檢測
· 天氣預報
· 根據當前市場價格預測房價
· 股票價格預測等
· 人臉識別
· 簽名識別
· 客戶發現
什麼是無監督學習?
無監督學習是訓練機器使用既未分類也未標記的資料的方法。這意味著無法提供訓練資料,機器只能自行學習。機器必須能夠對資料進行分類,而無需事先提供任何有關資料的資訊。
其理念是先讓計算機與大量變化的資料接觸,並允許它從這些資料中學習,以提供以前未知的見解,並識別隱藏的模式。因此,無監督學習演算法不一定有明確的結果。相反,它確定了與給定資料集不同或有趣之處。
計算機需要程式設計才能自學。計算機需要從結構化和非結構化資料中理解和提供見解。以下是無監督學習的準確說明:
無監督機器學習分類
1.聚類是最常見的無監督學習方法之一。聚類的方法包括將未標記的資料組織成類似的組,稱為聚類。因此,聚類是相似資料項的集合。此處的主要目標是發現資料點中的相似性,並將相似的資料點分組到一個聚類中。
2.異常檢測是識別與大多數資料顯著不同的特殊項、事件或觀測值的方法。通常在資料中尋找異常或異常值的原因在於它們是可疑的。異常檢測常用於銀行欺詐和醫療差錯檢測。
無監督學習演算法的應用
無監督學習演算法的一些實際應用包括:
· 惡意軟體檢測
· 資料輸入過程中人為錯誤識別
· 進行準確的購物籃分析等
· 欺詐檢測
應該什麼時候選擇監督學習或無監督學習?
在製造業中,有很多因素影響哪種機器學習方法最適合任何給定的任務。而且,由於每個機器學習問題的獨特性,決定使用哪種技術是一個複雜的過程。
一般來說,選擇正確機器學習方法的一個好策略是:
· 評估資料。標記與否?是否有專家知識支援附加標記?這將有助於確定是否應使用監督、無監督、半監督或強化的學習方法。
· 審查可用的演算法,其可能適合維度問題(特徵、屬性或特徵的數量)。候選演算法應適合於整個資料量以及其結構。
· 研究成功案例,關於類似問題上應用的演算法型別。
· 定義目標。被定義的問題是否反覆出現?是否期望演算法能預測新的問題?
監督學習和無監督學習是機器學習領域中的關鍵概念,這應該是你開始學習機器學習的第一課,一定要理解透徹呀!
https://www.toutiao.com/i6820687480707088903/