推送!10大主流AI模型適用盤點

人工智慧頻道發表於2018-11-22

人工智慧和機器學習的出現,讓各大企業瞬間走上捷徑,不管是運營效率還是生產利潤都得到了顯著的提升。但世界上是沒有“免費午餐”的,企業面臨的問題陣列龐大,用於解決這些問題的ML模型種類相當廣泛,每一種演算法擅長的領域都不同,選擇一種合適的演算法模型成為企業棘手難題。

本文彙總了當下最流行的10種AI演算法,對它們的優點進行了詳細梳理,以供觀摩!

10種流行AI演算法:

1.       線性迴歸

2.       Logistic迴歸

3.       線性判別分析

4.       決策樹

5.       樸素貝葉斯

6.       K-Nearest Neighbors

7.       學習向量量化

8.       支援向量機

9.       Bagging和隨機森林

10.   深度神經網路   

    在詳細介紹各大模型之前,我們先了解一下機器學習的基本原理。

機器學習的原理可以簡單的理解為學習函式(f),它提供輸入值(x)和輸出值(y)之間最精確的相關性。Y=F(X)

當我們擁有了一些歷史資料X、Y時,便可以套入AI模型,得出這些資料間最佳對映。機器學習不同於數學計算,它的結果不是100%的準確,只是一個最佳數值。但我們訓練的F函式可以用於使用新X預測新Y,從而實現預測分析。不同種類的ML模型實現最佳結果的方式都是不一樣的,但是基本原理都是一樣的。

線性迴歸

截止今日,線性迴歸在數學統計中被使用了200多年。演算法的要點是找到係數(B)的值, 這些值對訓練函式精度的影響很大。

舉一個簡單的例子:y = B0 + B1 * x,其中B0 + B1就是需求。

通過調整這些係數的權重,資料科學家可以獲得不同的訓練結果。該演算法成功的核心要求是具有清晰的資料(不能有太多的“低值資訊”),併除去具有相似值(相關輸入值)的輸出變數。

線性迴歸演算法一般適用於金融、銀行、保險、醫療保健、營銷等行業,統計資料進行梯度下降優化。

Logistic迴歸

Logistic迴歸是另一種流行的AI演算法,能夠提供二進位制結果。這意味著該模型既可以預測結果,也可以指定y值的兩個類別。該函式可以改變演算法的權重,但由於使用非線性邏輯函式來轉換結果,所以是不同的。此函式可以表示為將真值與虛值分開的S形線。

該函式成功的要求與線性迴歸相同——去除相同值的輸入樣本並減少低值資料的數量。Logistic迴歸是一個比較簡單的函式,很好掌握,很適合二進位制分類。

線性判別分析(LDA)

線性判別分析(LDA)是邏輯迴歸模型的一個分支,可以在輸出中存在兩個以上的類時使用。該模型可以計算資料的統計特性,如每個類別平均值和所有類別的總方差。預測允許計算每個類的值,並確定具有最高值的類。想要得到正確的結果,該模型需要根據高斯貝爾曲線分佈資料,事先去除所有的異常值。

決策樹

決策樹是最古老,最常用,最簡單和最有效的ML模型之一。它是一個經典的二叉樹,在模型到達結果節點之前,都需要確定是否進行拆分。

該模型易於學習,不需要資料規範化,可以幫助解決多種型別的問題。

樸素貝葉斯(NBM)

樸素貝葉斯演算法是一個簡單但非常強大的模型,用於解決各種複雜問題。它可以計算出兩種型別的概率:

1.       每個類出現的概率

2.       給定一個獨立類的條件概率,給出一個額外的x修飾符。

這種模型會假設所有輸入資料彼此無關,因此也被稱為“幼稚模型”。雖然這些在現實生活中無法實現,但這種簡單的演算法可以應用於多種標準化資料流,高精度地預測結果。

K-Nearest Neighbors(KNN)

K-Nearest Neighbors同樣也是一個非常簡單且強大的ML模型,使用整個訓練資料集作為表示欄位。通過檢查具有相似值的K資料節點的整個資料集並使用歐幾里德數來計算結果值的預測,以確定結果值。

這樣的資料集需要大量的計算資源來儲存和處理資料,但當存在多個屬性且必須不斷地策劃時會遭受精度損失。但是它工作速度極快,能夠非常準確且高效的在大型資料集中查詢所需值。

學習向量量化(LVQ)

KNN唯一的缺點是需要儲存和更新大型資料集。學習向量量化(LVQ)是KNN模型的進化版,它是使用碼本向量來定義訓練資料集並編碼所需結果的神經網路。因此,這些向量最初是隨機的,在學習的過程中可以調整它們的值來最大化預測精度。

因此,找到具有最相似值的向量可以預測結果值的最高準確度。

支援向量機(SVM)

支援向量機是資料科學家討論最廣泛的演算法之一,因為它為資料分類提供了非常強大的功能。所謂的超平面是用不同的值分隔資料輸入節點的線,當同一類的所有資料例項都在超平面的同一側,即支援向量;當資料點在其類平面之外,即不支援向量。

好的超平面具有最大正向量且能夠分離大多數資料節點。它是一個非常強大的分類機器,可以應用於各種資料規範化問題。

Bagging和隨機森林

隨機決策森林由決策樹組成,其中多個資料樣本由決策樹處理,將結果聚合(如收集袋中的許多樣本)在一起來找到更準確的輸出值。

不是找到一條最佳路線,而是定義了多條次優路線,從而使整體結果更加精確。如果決策樹能夠解決您的需求,那麼隨機森林可以作為一種優化方式,使結果更加完善。

深度神經網路(DNN)

深度神經網路是使用最廣泛的AI和ML演算法之一,其工作原理是模仿人腦思考方式,使軟體的語音識別速度更快,識別準確率更高。它擅長改善深基於學習的文字和語音應用程式,機器感知深層神經網路和OCR等。

總結

AI模型和ML模型種類繁多,有的適合資料分類,有的適合資料規劃。沒有一款模型能夠適合所有的問題,因此選擇一種合適的AI模型至關重要。

那麼如何判斷哪個模式更匹配您的需求呢?以下是一些幫助判斷的要點:

1.       您需要處理的3V大資料(輸入的數量,種類和速度)

2.       您可以使用的計算資源數量

3.       您處理資料的時間限制

4.       資料處理的目標

綜上所述,如果一個模型可以提供94%的預測精度,另一個模型可以提供86%的預測精度,但是高精度模型的處理時間是低精度模型處理時間的兩倍,那麼就需要您基於上述條件去做選擇。

但是,目前還存在一個比較大的問題是很多企業普遍缺乏設計、實施資料分析以及機器解決方案所需的專業知識。這就是為什麼有那麼多的企業都去選擇專門的託管服務提供商。

來自 “ https://dzone.com/articles/top-10-most-popular-ai- ”,原文連結:http://blog.itpub.net/31545819/viewspace-2221163/,如需轉載,請註明出處,否則將追究法律責任。

相關文章