【機器學習】深度解析機器學習五大流派中主演算法精髓

產業智慧官發表於2018-04-07


640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

Pedro Domingos是華盛頓大學電腦科學與工程學教授,也是國際機器學習協會的聯合創始人之一。本文是Pedro Domingos在Google所作的機器學習演講內容整理。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

讓我們首先從一個簡單的問題開始,知識到底是從哪裡來的?以前已知的三個來源有:

1. 進化——來自於你的DNA

2. 經驗——來自於你的神經

3.文化——這些知識來自於與他人交流,讀書學習等

我們日常生活中幾乎每件事都是來自於這三個方面的知識,最近出現了第四個來源,那就是計算機。現在有越來越多的知識是來自於計算機(這些知識也是被計算機發現的)。640?wx_fmt=jpeg

計算機來源的出現對於前三個來說是非常大的改變,進化天然就存在於地球上。經驗是將我們與動物以及蟲類分類開的原因,文化則是使得我們之所以為人的根本。

這四種中每一種與前者的差別都是數量級的差異,後者也能發現更多的知識。計算機比之前三種要快幾個數量級,且能與其他幾種實現共存。

640?wx_fmt=jpeg

Yann Lecun——Facebook AI研究組主任

未來世界上大多數知識都將被機器提取,且將留存在機器中。

所以,機器學習不但對於電腦科學家來說是一個大的改變,對於普通人來說也是他們需要理解的一件事。

640?wx_fmt=jpeg

那麼計算機到底是如何發現新的知識的呢?

1. 填補現有知識的空白

和科學家工作的方式很像,觀察——做出假設——通過理論來進行解釋——成功(或失敗,嘗試新的)等

2.大腦模擬

世界上最偉大的學習機器就是人的大腦,因此讓我們對它進行逆向工程。

3.模擬進化過程

進化過程,從某種角度來說甚至比人類的大腦更偉大(因為它造就了你的大腦,你的軀體,還有其他地球上的一切生命),所以來說這個過程值得好好弄清楚並且使用計算機來進行運算。

4.系統地減少不確定性

你學到的知識不一定正確,當從資料中獲得什麼東西時,你對它卻不能完全確定。所以使用概率來量化這個不確定性,當你看到更多的證據時,不同的假設的概率能夠進一步完善。還可以使用貝葉斯理論來進行這個工作。

5.注意新舊知識之間的相似性

通過類比來進行推理,在心理學上有證據說人類經常這樣做。當你面臨一個情境時,你在以往的經驗中尋找相似的情境,然後將這兩者連線起來。

640?wx_fmt=jpeg

機器學習五大流派(主要演算法)

  • 符號主義——邏輯學、哲學——逆向演繹

相信填補現有知識的空白的

  • 聯結主義——神經科學——反向傳播

希望從大腦執行方式得到啟發

  • 進化主義——進化生物學——遺傳編碼

遺傳演算法

  • 貝葉斯派——統計學——概率推理

  • 行為類推主義——心理學——機器核心(支援向量機) 

640?wx_fmt=jpeg

符號主義代表人物:

Tom Mitchell、Steve Muggleton、Ross Quinlan 640?wx_fmt=jpeg

逆向演繹

Tom Mitchell、Steve Muggleton、Ross Quinlan等認為學習是一個逆向演繹的過程,推理是從通用規則推導至特定事實,歸納剛好相反,從特定事實總結出通用準則。我們可以由減法和加法的相反關係來推倒出推理的原理。

640?wx_fmt=jpeg

逆向演理示例:

蘇格拉底是人類+人類是凡人= 蘇格拉底是凡人

(但是計算機現在還不能理解自然語言)

640?wx_fmt=jpeg

找出圖中的生物學家

其實是那臺機器,圖中的機器是一名完整的、自動的生物學家,它也是從分子生物學中的DNA、蛋白質、RNA開始學習的。使用逆向演繹來進行假設,設計實驗來測試這些假設是否成立(在沒有人類的幫助下)。然後它給出結果,提煉假設(或者提出新的假設)。

640?wx_fmt=jpeg

聯結主義代表人物有:

Geoff Hinton、Yann Lecun、Yoshua Bengio

640?wx_fmt=jpeg

單一神經元

神經元是一種非常有趣的細胞,看起來像樹一樣。神經元是具有長突觸(軸突)的細胞,它由細胞體和細胞突起構成。在長的軸突上套有一層鞘,組成神經纖維,它的末端的細小分支叫做神經末梢。細胞突起是由細胞體延伸出來的細長部分,又可分為樹突和軸突。每個神經元可以有一或多個樹突,可以接受刺激並將興奮傳入細胞體。每個神經元只有一個軸突,可以把興奮從胞體傳送到另一個神經元或其他組織,如肌肉或腺體。神經元之間是互相連線的,這樣形成了一個大的神經網路。人類所學會的知識幾乎都存在神經元之間的突觸中,整個學習過程基本上是出現在一個神經元幫助另一個神經元發射訊號的過程。

640?wx_fmt=jpeg

人工神經元模型

人工神經元的工作過程:將輸入加權組合,

例如:每個輸入都是畫素,每個都進行加權組合,當其超過閾值時會得到輸出為1的結果,否則得到的就是0的結果。

再如輸入是貓,當所有的加權組合起來超過了閾值,神經元就能識別出來:這是隻貓。

640?wx_fmt=jpeg

反向傳播

問題一:你如何訓練這些神經元的網路?

神經網路擁有一大堆神經元,需要通過一層一層計算才能得到輸出。

問題二:如果運算中出現錯誤了怎麼辦?如何在整個大型、紊亂的神經網路中進行調整,來得出正確的答案?

當出現錯誤,神經元本應該發射訊號時,實際上卻不會。出現問題的神經元可能是整個網路中的任一一個,但是想要找出它來卻十分困難。這就是反向傳播能解決的問題,當人們在20世紀60年代設想出神經網路時,他們並沒有想到這個反向傳播的方法,它最終是在19世紀80年代由David Rumelhart等人提出的。

反向傳播的基本理念是十分直觀的,舉例來說,理想輸出應該是1,但是實際輸出確是0.2,需要將其增大。

問題三:怎樣調整權重才能讓其增大?

通過後續的神經元向前序神經元進行反饋,一層一層向後直到得到的值接近真實值,這就是反向傳播演算法(也是深度學習的核心所在)。

640?wx_fmt=jpeg

近期以來深度學習被用於各種領域中,證券市場預測、搜尋、廣告、視訊識別、語義識別等。不過對於大眾來說,最有名的應該是Google推出的能識別貓的神經網路——在當時,它是有史以來最大型的神經網路(可能超過10億引數)。

640?wx_fmt=jpeg

進化主義代表人物:John Holland、John Koza、Hop Lipson

進化理論認為反向傳播只是在模型中調整權重而已,而沒有整個弄明白大腦的真正來源是什麼。所以要搞清楚整個進化過程是如何進行的,然後在計算機上模擬同樣的過程。

640?wx_fmt=jpeg

遺傳演算法是如何工作的?

遺傳演算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型,是一種通過模擬自然進化過程搜尋最優解的方法。遺傳演算法是從代表問題可能潛在的解集的一個種群(population)開始的,而一個種群則由經過基因(gene)編碼的一定數目的個體(individual)組成。每個個體實際上是染色體(chromosome)帶有特徵的實體。染色體作為遺傳物質的主要載體,即多個基因的集合,其內部表現(即基因型)是某種基因組合,它決定了個體的形狀的外部表現,如黑頭髮的特徵是由染色體中控制這一特徵的某種基因組合決定的。因此,在一開始需要實現從表現型到基因型的對映即編碼工作。不同的人是通過他們的基因進行區分的,但是與人類不同,計算機的構成單元只是位元符(0和1)。遺傳演算法(Genetic Algorithm)是一類借鑑生物界的進化規律(適者生存,優勝劣汰遺傳機制)演化而來的隨機化搜尋方法。它是由美國的J.Holland教授1975年首先提出,其主要特點是直接對結構物件進行操作,不存在求導和函式連續性的限定;具有內在的隱並行性和更好的全域性尋優能力;採用概率化的尋優方法,能自動獲取和指導優化的搜尋空間,自適應地調整搜尋方向,不需要確定的規則。遺傳演算法的這些性質,已被人們廣泛地應用於組合優化、機器學習、訊號處理、自適應控制和人工生命等領域。它是現代有關智慧計算中的關鍵技術。

遺傳操作是模擬生物基因遺傳的做法。在遺傳演算法中,通過編碼組成初始群體後,遺傳操作的任務就是對群體的個體按照它們對環境適應度(適應度評估)施加一定的操作,從而實現優勝劣汰的進化過程。

640?wx_fmt=jpeg

遺傳編碼

由於仿照基因編碼的工作很複雜,我們往往進行簡化,如二進位制編碼,初代種群產生之後,按照適者生存和優勝劣汰的原理,逐代(generation)演化產生出越來越好的近似解,在每一代,根據問題域中個體的適應度(fitness)大小選擇(selection)個體,並藉助於自然遺傳學的遺傳運算元(genetic operators)進行組合交叉(crossover)和變異(mutation),產生出代表新的解集的種群。這個過程將導致種群像自然進化一樣的後生代種群比前代更加適應於環境,末代種群中的最優個體經過解碼(decoding),可以作為問題近似最優解。

640?wx_fmt=jpeg

當下,遺傳演算法專家已經不滿足於在電腦上進行模擬了,他們將自己的技術也帶到了真實世界中——機器人技術。他們最開始用的是普通的機器人模式,當他們訓練到足夠好時,通過3D列印技術將整個機器人列印出來,列印出來的機器人真的能夠進行爬行走動等動作。(hod lipson實驗室)雖然這些機器人現在還不夠好,但是相比它們剛起步的時候,已經發展的相當迅速了。

640?wx_fmt=jpeg

貝葉斯派代表人物:David Heckerman Judea pearl Micheal Jordan

貝葉斯一直以來都是小眾領域,其中Judea pearl是圖靈獎獲得者。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

貝葉斯理論

貝葉斯定理是概率論中的一個定理,它跟隨機變數的條件概率以及邊緣概率分佈有關。在有些關於概率的解說中,貝葉斯定理能夠告知我們如何利用新證據修改已有的看法。

其中P(A|B)是在B發生的情況下A發生的可能性。

在貝葉斯定理中,每個名詞都有約定俗成的名稱:

P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。

P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。

P(A)是A的先驗概率或(或邊緣概率)。之所以稱為"先驗"是因為它不考慮任何B方面的因素。

P(B)是B的先驗概率或邊緣概率。

後驗概率 = (相似度*先驗概率)/標準化常量

也就是說,後驗概率與先驗概率和相似度的乘積成正比。

另外,比例P(B|A)/P(B)也有時被稱作標準相似度(standardised likelihood),貝葉斯定理可表述為:

後驗概率 = 標準相似度*先驗概率

 貝葉斯學習機制已經被應用於許多領域。例如,自動駕駛車輛的“大腦”中就配有貝葉斯學習機制。因而,在某種程度上,貝葉斯定理在幫助駕駛車輛或者幫助車輛學習如何駕駛方面起到重大作用。

640?wx_fmt=jpeg

貝葉斯學習機制應用——垃圾郵件過濾器

不過,大概人人都熟悉的一項貝葉斯學習機制應用為垃圾郵件過濾器。首個垃圾郵件過濾器是由David Heckerman及其同事共同設計的。他們僅僅運用一個非常建議的貝葉斯學習機,即初級(naive)貝葉斯分類器。下面是該分類器的工作原理:其基於的假設為——一封郵件是垃圾郵件或一封郵件不是垃圾郵件,當然這種假設是在我們檢測郵件內容之前提出的。其中蘊含的先驗概率為:當你判斷一封郵件為垃圾郵件的先驗概率為90%,99%,99.999%時,你的假設即為正確的。證明這一假設正確與否的證據在於郵件的真實內容。例如,當郵件內容含有“萬艾可”一詞,這封郵件將在極大程度上被判定為垃圾郵件;當郵件內容含有大寫全拼“FREE”一詞,這封郵件將在極大程度上被判定為垃圾郵件;當“FREE”一詞後面出現四個感嘆號,這封郵件將在極大程度上被判定為垃圾郵件。當郵件署名出現你最好朋友的名字,這將降低這封郵件被判定為垃圾郵件的概率。因而,初級貝葉斯分類器就包含了這些“證據”。在一天結束時,該分類器將計算出一封郵件為垃圾郵件或非垃圾郵件的概率,基於計算得出的概率,分類器決定是否將該郵件過濾掉或將其傳送給使用者。垃圾郵件過濾器使我們能夠有效管理自己的郵箱。

當下,各種不同的演算法被應用於垃圾郵件過濾器。但是,貝葉斯學習機制是首個應用於垃圾過濾的演算法,並在其他眾多垃圾郵件過濾過濾器中得到應用。

640?wx_fmt=jpeg

行為類比推理法

最後,正如我提到的,行為類比主義者所持的基本觀點為:我們所做的一切,所學習的一切,都是通過類比法推理得出的。所謂的類比推理法,即觀察我們需要作出決定的新情景和我們已經熟悉的情景之間的相似度。早期行為類比主義的先驅之一為Peter Hart。他證實了,有些事物是與最佳臨近演算法相連的,這種演算法是首個基於相似度的演算法,稍後將對此詳細講解。Vladimir Vapnik發明了支援向量機,核心機,成為當時運用最廣,最成功的基於相似度學習機。這些都是最原始的類比推理形式。人們,例如Douglas Hofstadter,也致力於研究許多複雜高階的學習機。Douglas Hofstadter不僅是著名的量化研究科學家和電腦科學家,也是“哥德爾,埃舍爾,巴赫”一書的作者。其最著名的書有500頁,書中的觀點是一切智慧都只是類比。他強烈主張類比是主演算法。

最佳鄰近演算法

640?wx_fmt=jpeg

核心機

640?wx_fmt=jpeg

理解類比推理法的例項,最佳鄰近演算法及核心機

下面是一個用於理解這一觀點的一個謎題。假設給出兩個國家,由於所給出的是積極的例子和消極的例子,我賦予它們富有想象力的名字“Posistan”和“Negaland”。在圖中,我將不給出兩個國家的邊界線,只給出兩個國家的主要城市的位置。Posistan的主要城市用加號標出,Positiveville為首都,Negaland的主要城市也用同樣的方式標出。所給出的問題是:倘若我給出主要的城市,你能告訴我邊界線的位置嗎?當然,你並不能給出確定的答案,因為這些城市並不能決定邊界線的位置。但是,這也是機器學習的問題所在。我們得學會概括。

最佳鄰近演算法能夠為這一問題提供簡單的答案。即如果地圖上的一點臨近某一個積極地城市或任何一個消極城市,那麼我們可以假定這一個點位於Posistan。該假設將產生如下效果,即將地圖劃分為這個城市的鄰近城市,如此一來,Posistan將成為這些積極城市鄰近區域的聯合國家。一個城市的鄰近城市由那些離其最近的點構成。因而,便可得到一條鋸齒狀的邊界線。儘管最佳鄰近演算法是如此簡單,但是在學習階段,這種演算法甚至於不能起到任何作用,這一點是令人驚奇的。這個問題中所涉及的一些推理過程不是理想化的,其中之一便是,所得出得這條邊界線可能不是最正確的,因為真正的邊界線可能更為平滑。第二,倘若你仔細觀察這幅地圖,你可能捨棄一些城市,但是這一舉動不會對最終結果產生太大影響。倘若捨棄這個城市,它將併入其他兩個城市,最終的邊界線不會發生變化。唯一需要保留的是那些界定邊界線的城市,即所謂的“支援向量”,通常,這些向量存在於超空間內。因此,通常情況下,可以捨棄大量的城市,而不會對最終結果產生任何影響。不過,在大資料集中,捨棄大量資料將對最終輸出值產生影響。支援向量機,或簡稱為核心機,將解決這一問題。存在一種學習程式,能夠捨棄對界定邊界線來講沒有必要的例子,保留必要的例子,如此一來,能夠得到一條平滑的邊界線。在確定邊界線的過程中,支援向量機將使得邊界線與其最鄰近的城市之間的距離達到最大。這邊是支援向量機的工作原理。

推薦系統

640?wx_fmt=jpeg

在深度學習盛行之前,支援向量機可能是應用最強健地學習演算法。人們從20世紀50年代便開始運用這種基於類比的學習演算法,因此這種學習演算法基本上適用於地球上的一切事物。我們都體驗過這種學習演算法的應用例項,儘管可能沒有意識到應用到了基於類比的學習演算法。這便是推薦系統。例如,我想弄清楚推薦給你什麼型別的電影比較合適,當然民俗電影已經有20年的歷史了,也是一種非常簡單的電影形式。我將不用電影的類別進行推薦,因為人們的興趣複雜多變,這在很大程度上將是一個難題。我將採用一種“協同過濾”方法,即找到一些品味興趣與你相似的五個人,這意味著你和他們一樣給某部電影五個星,給另一部電影一個星。倘若他們對一部你沒有看過的電影五顆星,我便可以通過類比推理法假定,你也會喜歡那部電影,這樣我便可以向你推薦這部電影。這種運用類比推理的“協同過濾”方法取得了極好的成效。事實上,Netflix四分之三的業務得益於這種推薦系統。亞馬遜也運用了這種推薦系統,這種系統為其業務的發展帶來了三分之一的成效。這些時間以來,人們運用各種學習演算法來實現這一推薦系統,但是最佳鄰近演算法是最早應用於研究這一系統的學習演算法,也是最優的演算法之一。

640?wx_fmt=jpeg

文章來源:雷鋒網

640?wx_fmt=png



人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET



本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com





相關文章