所謂人工智慧,通俗地講是指由人工製造出來的系統所表現出來的智慧
機器學習簡單來講就是通過演算法,使機器能從大量歷史資料中學習規律,從而對新的樣本做出智慧識別或對未來做預測
機器學習是基於概率統計、矩陣或圖模型而得出的分析結論
機器學習是人工智慧的一個分支
深度學習是機器學習的一個新領域
監督學習 |
邏輯迴歸、K近鄰、樸素貝葉斯、隨機森立、支援向量機 |
無監督學習 |
K-means、DBSCAN、協同過濾、LDA |
半監督學習 |
標籤傳播 |
強化學習 |
隱馬爾可夫 |
監督學習法Supervised Learning |
通過過往的一些資料的特徵以及最終結果來進行訓練的方式就是監督學習法 |
分類演算法 K近鄰、樸素貝葉斯、決策樹、隨機森林、GBDT和支援向量機等
迴歸演算法 邏輯迴歸、線性迴歸等
|
無監督學習Unsupervised Learning |
是指訓練樣本不依賴於打標資料的機器學習演算法:無監督學習主要是用來解決一些聚類場景的問題,因為當我們的訓練資料缺失了目標值之後,能做的事情就只剩下比對不同樣本間的距離關係
|
聚類演算法 K-Means、DBSCAN等
推薦演算法 協同過濾等
|
半監督學習Semi-supervised Learning |
對樣本的部分打標來進行機器學習演算法的使用,這種部分打標樣本的訓練資料的演算法應用,就是半監督學習 |
目前很多半監督學習演算法都是監督學習演算法的變形,本書將介紹一種半監督學習演算法——標籤傳播演算法 |
強化學習Reinforcement Learning |
強調的是系統與外界不斷地互動,獲得外界的反饋,然後決定自身的行為。強化學習目前是人工智慧領域的一個熱點演算法種類,典型的案例包括無人汽車駕駛和阿爾法狗下圍棋。本書介紹的分詞演算法隱馬爾科夫就是一種強化學習的思想。 |
無人汽車駕駛和阿爾法狗, 分詞演算法隱馬爾科夫 |
場景解析是資料探勘流程的第1步
過擬合(Over-fitting), |
是過度擬合的意思,常發生線上性分類器或者線性模型的訓練和預測當中 |
|
精確率、召回率、F1值 |
|
|
資料探查 |
資料量的大小 資料缺失或亂碼 欄位型別 是否含有目標佇列 |
ETL操作(描述將資料從來源端經過抽取(Extract)、轉換(Transform)、載入(Load)至目的端的過程),稱為“資料清洗 |
場景抽象 |
商品推薦 疾病預測 人物關係挖掘 |
把商品購買行為抽象成了“是”或者“否”這樣的二分類問題 對應症狀,所以只要挖掘每個時期的不同病變特徵,就可以實現預測,進而可以把癌症預測抽象成一個多分類的場景 |
演算法選擇 |
確定演算法範圍 多演算法嘗試 多視角分析 |
|
資料預處理是資料探勘流程的第2步
取樣 |
隨機取樣 系統取樣 分層取樣 |
|
歸一化 |
公式y=(x-MinValue)/(MaxValue- MinValue) |
歸一化是指一種簡化計算的方式,將資料經過處理之後限定到一定的範圍之內,一般都會將資料限定在[0,1]。 可以加快演算法的收斂速度 |
資料過濾 |
|
|
去除噪聲 |
|
|
|
|
|
|
|
|