【人工智慧】各種機器學習的應用場景分別是什麼?

產業智慧官發表於2018-04-18

Statsbot資料科學家Daniil Korbut寫過一篇《Machine Learning Algorithms: Which One to Choose for Your Problem》,簡明扼要地介紹了一些比較流行的機器學習演算法的典型應用場景,下面摘錄其中部分內容(由原作者授權論智翻譯):

線性迴歸和線性分類器

這些可能是機器學習中最簡單的演算法。你有物件(矩陣A)的特徵x1,… xn,以及相應的標籤(向量B)。你的目標是根據某些損失函式(例如,用於迴歸問題的MSE或MAE)找到這些特徵的最優權重w1,… wn和偏置值。在MSE的情況下,有一個來自最小二乘法的數學公式:

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

在實踐中,使用梯度下降來優化更容易,在算力上也更高效。儘管這個演算法很簡單,但是當你有數以千計的特徵時(例如文字分析中的詞袋或者n元語法),它的效果相當不錯。更復雜的演算法面臨過擬合眾多特徵和資料集大小受限的問題,而線性迴歸在這方面表現不錯。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

圖片來源:newsdog.today

為了防止過擬合,我們經常使用lasso和ridge之類的規整化技術。這個想法是,將權重模總和與權重平方總和分別與我們的損失函式相加。你可以閱讀一下文章結尾推薦的關於這兩個演算法的精彩教程。

邏輯迴歸

別因為邏輯迴歸的名稱中帶有“迴歸”一詞而將它與迴歸方法相混淆了,邏輯迴歸實際上是分類演算法。邏輯迴歸進行二元分類,所以標籤輸出是二進位制的。給定輸入特徵向量,定義為輸出為的條件概率。係數是模型想要學習的權重。

640?wx_fmt=jpeg

由於該演算法計算歸屬每個類別的概率,因此應該考慮概率與0或1的偏離程度,並像線上性迴歸中一樣對所有物件進行平均。這樣,損失函式是交叉熵的平均值:

640?wx_fmt=jpeg

不要恐慌,我來讓上面的公式容易理解一點。表示正確答案(0或1),表示預測答案。如果等於0,總和內的第一個加數等於0,根據對數的性質,我們預測的越接近0,第二個加數就越小。y等於1的情況同理。

邏輯迴歸哪裡強?它接受線性組合的特徵,並對其應用非線性函式(sigmoid),所以它是一個非常非常小的神經網路例項!

決策樹

另一個流行和易於理解的演算法是決策樹。決策樹的圖形幫助你看到你在思考什麼,決策樹的引擎要求一個系統的、記錄在案的思考過程。

這個演算法的想法很簡單。在每個節點上,我們選擇所有特徵和所有可能的分割點之中的最佳分割。每個分割都基於極大化某個泛函進行選擇。在分類樹中我們使用交叉熵和基尼指數。在迴歸樹中,我們最小化該區域中的點的目標值的預測變數與給定賦值的平方誤差的總和。

640?wx_fmt=jpeg

是否接受新工作的決策樹(來源:cway-quantlab)

我們在每個節點上遞迴地進行這一流程,直到滿足停止條件時結束。停止條件可以是葉節點的最小數量,也可以是樹高。 單獨的決策樹極少使用,但是與其他演算法一起,可以構成非常高效的演算法,例如隨機森林或梯度樹提升(Gradient Tree Boosting)。

K 均值

有時你對標籤一無所知,你的目標是根據物件的特徵來分配標籤。這被稱為聚類任務。

假設你想把所有的資料物件分成k個聚類。你需要從資料中選擇隨機的k個點,並將它們命名為聚類的中心。其他物件的聚類由最近的聚類中心確定。然後,重複轉變聚類中心直到收斂。

640?wx_fmt=jpeg

這是最明晰的聚類技術,但它仍有一些缺點。首先,你應該知道我們尚不知道的聚類的數量。其次,結果取決於在開始時隨機選擇的點,演算法不保證我們達到泛函的全域性最小值。

推薦閱讀中包括了一系列各有優劣的聚類方法。

主成分分析(PCA)

你是否曾在最後一晚或者最後幾個小時準備艱難的考試? 你沒有機會記住所有的資訊,但是你想要在可用的時間內最大限度地記住資訊,例如,首先學習多場考試中都會用到的定理,等等。

主成分分析基於同樣的想法。該演算法提供了降維。有時你有範圍很廣的特徵,而且很可能彼此高度相關,並且模型很容易會過擬合大量的資料。那麼,你可以應用PCA。

你應該計算某些向量的投影,以最大化資料的方差,並儘可能少地損失資訊。令人驚訝的是,這些向量正是資料集特徵的相關矩陣的特徵向量。

640?wx_fmt=jpeg

圖片來源:Analytics Vidhya

現在,演算法的思路已經很清楚了:

  1. 計算特徵列的相關矩陣,找出該矩陣的特徵向量。

  2. 接受這些多維向量,並計算它們上的所有特徵的投影。

新特徵是投影的座標,其數量取決於計算投影的特徵向量的計數。

神經網路

討論邏輯迴歸時,我已經提到了神經網路。有很多不同架構的神經網路,它們在特定的任務中價值很高。更常見的情況,神經網路是一系列的層和元件,其間是線性連線,接著會用到非線性。

卷積深度神經網路在處理影像方面展現出很好的效果。非線性表現為卷積層和池化層,能夠捕捉影像的特徵。

640?wx_fmt=jpeg

圖片來源:smash

處理文字和序列,較好的選擇是迴圈神經網路。 RNN包含LSTM或GRU模組,並且可以使用我們預先知道維度的資料。也許,RNN最著名的應用之一就是機器翻譯。


總結


線性迴歸和線性分類器。 儘管看起來簡單,但是它們很善於處理大量特徵(更高階的演算法在這種情況下面臨過擬合問題)。

邏輯迴歸是最簡單的非線性分類器。它基於引數的線性組合和非線性函式(sigmoid),並適用於二元分類。

決策樹經常與人們的決策過程類似,因此易於解釋。但它們通常用於諸如隨機森林或梯度提升之類的組合中。

K 均值是一個更原始,但非常容易理解的演算法,可以完美地成為許多問題的基準。

PCA是一個優秀的選擇,在最小化資訊損失的前提下,降低特徵空間的維度。

神經網路是機器學習演算法的一個新時代,可以應用於許多工,但是神經網路的訓練需要巨大的計算複雜度。

推薦閱讀

  • Overview of clustering methods [1]

  • A Complete Tutorial on Ridge and Lasso Regression in Python [2]

  • YouTube channel about AI for beginners with great tutorials and examples [3]


  1. http://scikit-learn.org/stable/modules/clustering.html#overview-of-clustering-methods

  2. https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-ridge-lasso-regression-python/

  3. https://www.youtube.com/channel/UCWN3xxRkmTPmbKwht9FuE5A

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com




相關文章