深度學習、機器學習、人工智慧——這些流行詞皆代表了分析學的未來。在這篇文章中，我們將透過一些真實世界的案例來解釋什麼是機器學習和深度學習。在以後的文章中，我們將探索垂直用例。這樣做的目的不是要把你變成一個資料科學家，而是讓你更好地理解你可以用機器學習做什麼。開發人員能越來越容易地使用機器學習，資料科學家時常與領域專家、架構師、開發人員和資料工程師一起工作，因此，詳細瞭解機器學習的可能性對每個人來說都很重要。你的業務產生的每一條資訊都有增加價值的潛力。這篇和以後的文章旨在激發你對自己資料的回顧，以發現新的機會。

什麼是人工智慧?

縱觀人工智慧的歷史，其定義被不斷重寫。人工智慧是一個概括性術語(這個概念始於50年代);機器學習是AI的子集，而深度學習又是機器學習的子集。

1985年，當我還是美國國家安全域性的實習生時，人工智慧也是一個非常熱門的話題。在美國國家安全域性，我甚至上了一節麻省理工關於人工智慧專家系統的影片課程。專家系統在規則引擎中捕獲專家的知識。規則引擎在金融和醫療保健等行業中有廣泛的應用，最近更是用於事件處理，但是當資料發生變化時，規則的更新和維護會變得異常困難。機器學習的優勢在於從資料中學習，並且可以提供資料驅動的機率預測。

在過去10年裡，分析學發生了怎樣的變化?
根據《哈佛商業評論》的托馬斯•達文波特，分析技術過去十年裡發生了翻天覆地的變化，跨商用伺服器功能更強大、成本更低的分散式計算，流媒體分析、改進的機器學習技術，都使企業能夠儲存和分析更多的、不同型別的資料。

類似Apache Spark這樣的技術使用迭代演算法，透過在記憶體中跨迭代快取資料並使用更輕量級的執行緒，進一步加速了分散式資料的並行處理。

圖形處理單元(GPUs)加快了多核伺服器的並行處理速度。GPU擁有一個由數千個更小、更高效的核心組成的大規模並行架構，這些核心專門設計用於同時處理多工，而CPU由幾個為順序序列處理而最佳化的核心組成。就潛在的效能而言，從Cray -1進化到如今擁有大量GPU的叢集，其效能提升大約是曾經世界上最快計算機的100萬倍，而成本卻只有其極小一部分。

什麼是機器學習?
機器學習使用演算法在資料中發現模式，然後使用一個能識別這些模式的模型對新的資料進行預測。

一般來說，機器學習可以分為三種型別：監督型、非監督型、介於兩者之間。監督學習演算法使用標記資料，而非監督學習演算法在未標記資料中發現模式。半監督學習使用標記資料和未標記資料的混合。強化學習訓練演算法在反饋的基礎上最大化獎勵。

監督學習
監督演算法使用標記資料，這些資料的輸入和目標的結果或標籤都會提供給演算法。

監督學習也被稱為預測建模或預測分析，因為你建立了一個能夠做出預測的模型。預測建模的一些例子是分類和迴歸。分類根據已知項的已標記示例(例如，已知是否為欺詐的交易)來識別一個項屬於哪個類別(例如，某交易是否為欺詐)。邏輯迴歸預測了一個機率——例如，欺詐的機率。線性迴歸預測一個數值——例如，欺詐的數量。

一些分類的例子包括：

信用卡欺詐檢測(欺詐，不是欺詐)。
信用卡申請(良好信用，不良信用)。
垃圾郵件檢測(垃圾郵件，不是垃圾郵件)。
文字情緒分析(快樂，不快樂)。
預測患者風險(高風險患者、低風險患者)。
惡性或非惡性腫瘤的分類。

邏輯迴歸(或其他演算法)的一些例子包括：

根據歷史汽車保險欺詐性索賠以及這些索賠的特徵，例如索賠人的年齡、索賠金額、事故嚴重程度等，預測欺詐發生的機率。
給定患者特徵，預測充血性心力衰竭的機率。

So線性迴歸的一些例子包括：

根據歷史汽車保險欺詐性索賠以及這些索賠的特徵，如索賠人的年齡、索賠金額、事故的嚴重程度等，預測欺詐金額。
根據歷史房地產銷售價格和房屋特徵(如平方英尺，臥室數量，位置)，預測房子的價格。
根據歷史上的社群犯罪統計，預測犯罪率。

這裡還有其他的監督和非監督學習演算法，我們不會一一介紹，但我們會詳細介紹每類中的一個。

分類示例：簽帳金融卡詐騙
分類選用一組具有已知標籤和預先確定特性的資料，並學習如何根據這些資訊標記新資料。特性是你問的“是否”問題。標籤就是這些問題的答案。

讓我們看一個簽帳金融卡詐騙的示例。

我們想要預測什麼?

某一筆簽帳金融卡交易是否為欺詐。
欺詐是標籤(對或錯)。

你可以用來進行預測的“ 是否 ”問題或屬性是什麼?

今天花費的金額是否大於歷史平均水平?
今天的這些交易是否在多個國家?
今天的交易數量是否大於歷史平均水平?
今天的新商戶型別與過去三個月相比是否較高?
今天是否在多個帶有風險類別程式碼的商家處購買?
今天是否有不尋常的簽名與以往使用PIN相比?
與過去三個月相比，是否有新的購買行為?
與過去三個月相比，現在是否有國外購買?

要構建分類器模型，你需要提取對分類最有貢獻的有用特性。

決策樹

決策樹建立一個基於輸入特徵預測類或標籤的模型。它的工作原理在於評估每個節點上包含一個特徵的問題，然後根據答案選擇到下一個節點的分支。預測簽帳金融卡欺詐的可能決策樹如下所示。特性問題是節點，答案“是”或“否”是樹中到子節點的分支。(注意，真正的樹會有更多的節點。)

問題一：24小時內的花費是否大於平均?

是

問題2：今天是否有多筆交易來自高風險的商家?

是欺詐機率 = 90%
非欺詐機率 = 50%

決策樹很受歡迎，因為它們易於視覺化和解釋。將演算法與整合方法相結合，可以提高模型的精度。一個整合例子是一個隨機森林演算法，它結合了決策樹的多個隨機子集。

無監督學習
無監督學習，有時也被稱為描述分析，沒有預先提供的標記資料。這些演算法發現輸入資料中的相似性或規律。無監督學習的一個例子是基於購買資料對相似的客戶進行分組。

聚類

在聚類中，一個演算法透過分析輸入例項之間的相似性將它們分類。一些聚類用例包括:

搜尋結果分組。
分組相似客戶。
分組相似病人。
文字分類。
網路安全異常檢測(發現不相似之處，叢集中的異常值)。

K均值演算法將資料分組到K個叢集中，每個資料都屬於離其叢集中心均值最近的叢集。

聚類的一個例子是，一個公司希望細分其客戶，以便更好地定製產品和服務。客戶可以依據比如人口統計和購買歷史記錄等特徵被分組。為了得到更有價值的結果，無監督學習的聚類常常與有監督學習相結合。例如，在這個banking customer 360用例中，首先根據問卷答案對客戶進行細分。接著對客戶群體進行分析，並標上使用者畫像。然後，這些標籤透過客戶ID與賬戶型別和購買內容等特性進行連結。最後，我們在被標籤的客戶身上應用了監督機器學習，允許將調查使用者畫像與他們的銀行行為聯絡起來，以提供深入的見解。

深度學習

深度學習用來稱呼多層神經網路，它是由輸入和輸出之間的節點“隱含層”組成的網路。神經網路有許多變種，你可以在這個神經網路備忘單上了解更多。改進的演算法、GPUs和大規模並行處理(MPP)使得具有數千層的神經網路成為可能。每個節點接受輸入資料和一個權重，然後向下一層的節點輸出一個置信值，直到到達輸出層，計算出該置信值的誤差。透過在一個叫做梯度下降的過程中進行反向傳播，誤差會再次透過網路傳送回來，並調整權值來改進模型。這個過程重複了數千次，根據產生的誤差調整模型的權值，直到誤差不無法再減少為止。

在此過程中，各層學習模型的最優特徵，其優點是特徵不需要預先確定。然而，這也意味著一個缺點，即模型的決策是不可解釋的。由於解釋決策可能很重要，研究人員正在開發新的方法來理解深度學習這個黑盒子。

原文連結：
本文轉自雷鋒網，本文一切觀點和機器智慧技術圈子無關，如需轉載請至雷鋒網官網申請授權。

機器智慧技術結尾二維碼.png

揭開AI、機器學習和深度學習的神秘面紗

相關文章