Machine Learning - Basic points

娃哈哈店長發表於2020-01-17

機器學習是英文Machine Learning的翻譯,主要研究使計算機模擬或者實現人類的行為,就行一個學生一樣,透過學習獲取新的知識或技能,完善自身已有的知識結構,並不斷提高自身的效能。它是人工智慧的核心,其應用遍及人工智慧的多個領域,例如: 影像處理、人臉識別、自然語言處理、資料探勘、生物特徵識別、檢測信用卡欺詐、證券市場分析、語音和手寫識別等等。

根據不同的演算法,機器學習演算法有監督學習、非監督學習、半監督學習和強化學習。

 0x00監督學習

監督學習可以理解為是從給定的訓練資料集中學習出一個函式,當新的資料到來時,可以根據這個函式預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特徵和目標。訓練集中的目標是由人類事先進行標註的。

監督學習主要應用於 分類classify 迴歸regression ,常見的監督學習演算法有:k-近鄰演算法、決策樹、樸素貝葉斯、logistic迴歸、支援向量機、adaboost演算法、線行迴歸、區域性加權線性迴歸、收縮和樹迴歸

 0x01非監督學習clustering

在學習的過程中,只提供事物的具體特徵,但不提供每個事物的名字。讓學習者自己總結歸納。所以非監督學習又稱歸納性學習(clustering),是指將資料集合分成由類似的物件組成的多個簇(或者組)的過程。

通常的演算法有:k-均值、apriori、fp-growth

 0x02增強學習reinforcement learning, RL、強化學習

透過增強學習,一個人類合作機器可以知道在什麼狀態下應該採取什麼行為。增強學習是從環境狀態到動作的對映的學習,我們把這個對映稱為策略,最終增強學習是學習到一個合理的策略。另一方面,增強學習是試錯學習(Trail-and-error),由於沒有直接的指導資訊,參與學習的個體或者機器要不斷與環境進行互動,透過試錯的方式來獲得最佳策略。另外,由於增強學習的指導資訊很少,而且往往是在事後(最後一個狀態)才得到的反饋資訊,以及採取某個行動是獲得正回報或者負回報,如何將回報分配給前面的狀態以改進相應的策略,規劃下一步的操作。

常見演算法:動態規劃、馬爾可夫決策

 0x03深度學習

深度學習的概念源於人工神經網路的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習透過組合低層特徵形成更加抽象的高層表示屬性類別或特徵,以發現資料的分散式特徵表示。

人工智慧讓機器和人一樣具有智力,機器學習實現人工智慧的基礎,深度學習是一種特定型別的機器學習

同機器學習方法一樣,深度機器學習方法也有監督學習與無監督學習之分.不同的學習框架下建立的學習模型很是不同.例如,卷積神經網路就是一種深度的監督學習下的機器學習模型,而深度置信網就是一種無監督學習下的機器學習模型。

 0x04機器學習常用術語

 資料集

“資料集”(Data Set):就是資料的集合的意思。其中,每一條單獨的資料被稱為“樣本”(Sample) 。若沒有進行特殊說明,本書都會假設資料集中樣本之間在各種意義下相互獨立。事實上,除了某些特殊的模型(如隱馬爾可夫模型和條件隨機場模型),該假沒在大多數場景下都是相當合理的。資料集又可以分為以下三類。

(1)訓練集( Training Set) :顧名思義,它是總的資料集中用來訓練模型的部分。儘管將所有資料集都拿來當作訓練集也無不可,不過為了提高及合理評估模型的泛化能力,通常只會取資料集中的一部分來當作訓練集。

(2)測試集(TestSet) :顧名思義,它是用來測試、評估模型泛化能力的部分。測試集不會用在模型的訓練部分:換句話說,測試集相對於模型而言是“未知”的,所以拿它來評估模型的泛化能力是相當合理的。

(3)交叉驗證集( Cross-Validation Set, CV Set) :這是比較特殊的一部分資料,它是用來調整模型具體引數的。

其中訓練集用來估計模型,交叉驗證集用來確定網路結構或控制模型複雜程度的引數,而測試集則檢驗最終選擇最優的模型效能如何。-一個典型的劃分是訓練集佔總樣本的50%,而其他各佔25%,三部分都是從樣本中隨機抽取的。

但是,當樣本總量少時,上面的劃分就不合適了。 通常是留少部分做測試集,然後對其餘N個樣本採用K折交叉驗證法。就是將樣本打亂,然後均勻分成K份,輪流選擇其中的K一1份訓練,剩餘的一份做驗證, 計算預測誤差平方和,最後把K次的預測誤差平方和再做平均作為選擇最優模型結構的依據特別的K取N,就是留一法Leave One Out)。

交叉驗證和測試集的區別:

很多讀者經常會把測試集和交叉驗證集混淆。用一句話概括兩者的區別就是,交叉驗證集主要用於進一步 確定模型的引數(或結構),而測試集只是用於評估模型的精確度。

 屬性和特徵

對於一個具體的樣本,通具有一些屬性或者特徵,特徵所具體取得值被稱為特徵值,特徵和樣本所組成得空間被稱為特徵空間】和樣本空間,可以把他們簡單的理解為特徵和樣本的可能存在空間。

 標籤或類別

與之相對應的,有“標籤空間”(Labe Space),它描述了模型的輸出“可能存在的空間" ;當模型是分類器時,通常會稱為“類別空間”。

本作品採用《CC 協議》,轉載必須註明作者和本文連結
文章!!首發於我的部落格Stray_Camel(^U^)ノ~YO

相關文章