人工智慧研學社 · 入門組 | 《終極演算法》研習第二期

机器之心發表於2017-06-12

繼 Google、Facebook 紛紛高調宣佈自己是「人工智慧公司」後,前日的蘋果 WWDC 開發者大會上,各類融合了機器學習與人工智慧的產品第一次清晰表明了蘋果在人工智慧領域的藍圖。至此,「人工智慧」正式成為科技巨頭們高調比拼的角力場。可以說,機器學習所代表的人工智慧,已經不再是一個新鮮的概念,科技、醫療、金融、安防,甚至政治、社會研究,都逐漸將這類強大的演算法整合到自己的架構中去,以發揮更大的效能。在這樣的浪潮之下,瞭解人工智慧與機器學習,是每一個關心科技與社會發展的人必做的功課。

然而,這並不是一個低門檻的領域,人工智慧也有其漫長的歷史和複雜的發展結構,想要了解事情的全貌,無法一蹴而就。如果你對人工智慧缺乏系統的瞭解,機器之心向你推薦 Pedro Domingos 的著作《終極演算法》(The Master Algorithm)。同時,以這本書為載體,機器之心「人工智慧研學社· 入門組」也已經完成了一半的學習內容。在後半部書中,作者開始對人工智慧不同流派的相關理論模型進行詳細討論,如果你對機器學習演算法的技術細節及其背後的哲學感興趣,這也是一個開始學習的極好時機。

現在,我們邀請所有對人工智慧、機器學習感興趣的初學者加入我們,通過對 The Master Algorithm 的閱讀與討論,巨集觀、全面地瞭解人工智慧的發展歷史與技術原理。本期招新,我們將對學習材料和加入流程進行介紹,文末還有第六章的總結提綱。報名請掃描文中的二維碼。我們期待你的加入!

The Master Algorithm 介紹

The Master Algorithm 是一本介紹機器學習的科普性質讀物,未涉及公式與程式碼,不要求讀者具備相關的專業知識,一定的理科基礎便足以通過閱讀概念化的核心演算法形成基礎的框架式理解。作者 Pedro Domingos 是機器學習領域的資深專家,現任華盛頓大學電腦科學教授,著有多篇機器學習論文且榮獲多項頂級科研獎項。全書條理清晰,內容豐富,深入淺出地介紹了機器學習中五大流派的衍生、發展和應用:推崇逆向演繹的符號學派、主張逆行分析的聯結學派、模擬自然選擇的進化學派、奉行概率推理的貝葉斯學派、以及根據相似性判斷作出推理的類推學派。即使目前各種典型演算法可以解決具有針對性的特定問題,書中有大量篇幅介紹通用演算法的設想,試圖將不同學派融為一體,博採眾長,以一舉解決所有的綜合應用問題。作者對通用演算法的存在和其即將出現的必然性所懷有的信心滲透在行文的字裡行間。

The Master Algorithm Program 是研學社現下推出的一個入門級專案,基於 Pedro Domingos 所著的 The Master Algorithm 的閱讀和討論,旨在聚集起以此書入門機器學習的初學者,鼓勵自由提問和開放式討論,定期彙總問題並整理出相應的詮釋,以建立一個有良好氛圍的學習社群。專案推出至結束將持續十週,閱讀進度為每週一章,每章討論週期為一週,通過相應章節測試題的申請者將被視為合格並會被邀請加入特定微信群。詳情如下:

機器之心「人工智慧研學社 · 入門組」前兩期內容:

  • 第五期 | 進入貝葉斯的殿堂:https://www.jiqizhixin.com/articles/9b881533-75ee-4ee3-bba1-6a21930a7491
  • 第六期 | 初入貝葉斯網路:https://www.jiqizhixin.com/articles/51dadf29-43fa-4b08-b31c-2b212987ff0d

加入機器之心「人工智慧研學社 · 入門組」

對於機器學習這樣一個既有歷史沉澱又有未來前景的技術領域,你一定充滿了好奇和想要學習的渴望。也許你在計算機方面已經有了一定的技術積累,但要進入一個新的領域,你可能還是常常感到:

1. 找不到合適的學習策略

2. 有學習動力,但無法堅持

3. 學習效果無法評估

4. 遇到問題缺乏討論和解答的途徑

因此,為了幫助「機器學習新手」進入這一領域,機器之心發起了一個互助式學習小組——「人工智慧研學社· 入門組」。本小組將通過優質資料分享、教材研習、論文閱讀、群組討論、專家答疑、講座與分享等形式加強參與者對機器學習的理解和認知。

  • 面向人群:有一定的計算機技術基礎,在機器學習方面處於學習階段的人
  • 學習形式:學習資料推薦、統一進度學習(章節總結與測驗)、群組討論、專家答疑、講座等。
  • 加入方式:

1)新增機器之心小助手微信,並註明:加入機器學習入門組

人工智慧研學社 · 入門組 | 《終極演算法》研習第二期

2)完成小助手傳送的入群測試(題目會根據每期內容變化),並提交答案,以及其他相關資料(教育背景 、從事行業和職務 、人工智慧學習經歷等)

3)小助手將邀請成功通過測試的朋友進入「人工智慧研學社· 入門組」

入群問卷

1)教育背景 2)從事行業和職務 3)計算機經歷

第六章貝葉斯定理總結

支配世界的定理:貝葉斯定理

貝葉斯定理是一個簡單的規律,描述了你在看到新證據後對某個假設的置信程度的改變:如果證據與假設一致,該假設的成立概率就提高;如果不一致,則會降低。

貝葉斯定理的歷史:

  • 托馬斯貝葉斯:這位牧師第一次提出了對概率的新思考方式。
  • Pierre-Simon de Laplace:首次從貝葉斯觀點出發發展出貝葉斯定理的法國人。

事實上,人類並不是很擅長貝葉斯推理,至少在牽涉到語言推理時是這樣的。問題是我們通常會忽視原因的先驗概率。舉個關於 HIV 的例子:你如果 HIV 測試結果呈陽性,並且測試出現假陽性的概率只有 1%。似乎第一眼看上去你得艾茲的概率達到了 99%。那麼我們可以使用貝葉斯定理,p(HIV 感染概率) = p(HIV) × p(陽性 HIV 概率) / p(陽性概率) = 0.003 × 0.99 / 0.01 = 0.297(這裡我們假定了 p(HIV) 為一般人群感染 HIV 的概率,美國為 0.003;p(陽性概率) 為無論你有沒有試驗結果都呈陽性的概率,假設是 0.01)。所以對於一個陽性測試結果,實際感染 HIV 的概率卻只有 0.297。

  • 頻率學派:認為概率是一種頻率。他們通過事件發生的頻繁程度推測概率的大小。
  • 貝葉斯學派:認為概率是一種主觀的置信程度。他們認為你應該在新證據出現後,更新你所相信的假設。

樸素貝葉斯分類器(所有的模型都是錯誤的,但有些是有用的。-George Box)

  • 樸素貝葉斯分類器可以表達為原因→ 效果圖模型,就如上圖所示。
  • 樸素假設:給定分類標籤,所有的特徵都是條件獨立的。比如說,p(X1|Y) 與 p(X2|Y) 是相互獨立的。即滿足方程式:P(X1, X2|Y) = p(X1|Y) * p(X2|Y)
  • 執行時間複雜度 = O(CD)。C= 型別數,D=特徵數
  • 一個有足夠資料去估測的過於簡單模型比一個資料不足的完美模型更好。
  • 優勢:快速;避免了過擬合;這個簡單模型經驗上標校友聯表現優良,即使樸素假設並不實際。
  • 成對連線

馬爾可夫鏈與隱馬爾可夫模型(從 Eugene Onegin 到 Siri)

  • Markov 假定(錯誤但有用)一個事件的概率在文字的每個位置都是一樣的。
  • 隱馬爾可夫模型(HMM):在一個隱藏狀態中假定馬爾可夫過程。
  • 語音識別(Siri):
  •  隱藏狀態:寫下來的文字
  •   觀察:說給 Siri 的話 目的是從聲音中推斷出文字 
  •   其它應用:計算生物學,詞性標記

Bayesian Network and its applications (Everything is connected, but not directly)

  • 貝葉斯網路(Judea Pearl)是一個非常複雜的相關性隨機變數網路,其中每個變數僅直接和其他很少的幾個變數相關。
  • 樸素貝葉斯、馬爾可夫鏈,和隱馬爾可夫模型是貝葉斯網路的幾種特例。
  • 例子:報警器。
  • 你房子裡裝的報警器會因為盜賊試圖入侵而激發,也會被地震激發如果警報器響了,鄰居 Bob 或 Claire 會電話通知你
  • 警報響了以後,Bob 會根據盜竊或地震打電話。對於一個已有的警報,Bob 的電話與盜竊和地震是條件獨立的。當他發現警報響起時,Bob 打電話通知的事件是與盜竊和地震條件獨立的。若沒有獨立的結構,我們需要了解 2^5 種可能性。用這個結構,我們只需要 1+1+4+2+2 = 10 種可能性。
  • 應用:需要領域知識辨識出影象的結構!!
  • 生物:一個給定細胞中基因是如何互相調控的廣告:選擇放在網路上的廣告遊戲:給玩家評分,基於類似的技能匹配玩家。

推理(推理問題)

  • 推理問題即在沒有構建出完整概率表的情況下,如何計算一個特定的概率。
  • 在很多案例中,我們可以做到這點,且避免成指數放大。
  • 環路信念傳播:
  •   圖(graph)包括了迴圈。我們假設圖沒有迴圈,僅僅是不停的往復傳播概率,直到收斂。但它有可能得出一個錯誤的答案,或根本就不收斂。
  • 馬爾可夫鏈蒙特卡爾理論
  •   設計一個收斂到貝葉斯網路分佈的馬爾可夫鏈。需要經過一系列步驟。使用一個建議分佈 Q (通常是易處理的)逼近於複雜的真實(通常很棘手而且是高維的)資料分佈。優勢:一個好用的馬爾可夫鏈會收斂到 s 穩態分佈。劣勢:很難收斂,並且會導致壞結果。

最大後驗概率 & 最大似然估計(學習貝葉斯方法)

p(hypo|data) * p(data) = p(data|hypo) * p(hypo)

我們能忽略 p(data),因為其對所有假設都是一樣的。

p(hypo|data) = p(data|hypo) * p(hypo)

先驗概率:p(hypo)

似然性: p(data|hypo)

後驗概率:p(data|hypo) * p(hypo)

  • 頻率學派:最大似然估計(MLE):在進行推論時,我們只關心似然度,並選擇給出所最大化 p(data|hypo) 的假設作為預測。
  • 貝葉斯學派:最大後驗概率(MLE):我們也需要把先驗 p(hypo) 納入計算,不僅是似然度,還要選擇給出最大 p(data|hypo) * p(hypo) 的假設作為預測。
  • 如果我們認為所有假設都服從均勻分佈,那麼 MAP = MLE。
  • 計算 MAP 需要先計算 p(data)。然而,實際上,p(data) 由高維度特徵構成,因此,p(data) 很難精確計算。我們只能用數值法粗略估算它的下確界或上確界。除了計算之外,MAP 經常引發資料分佈的偏差,即 MAP 容易過擬合。適當的選擇適合給定問題的方式永遠是很重要的。
  • MLE 的劣勢:如果到目前時間還沒有發生(可能性=0),那麼根據 MLE 它將來也永遠不會出現。

馬爾可夫網路/馬爾可夫隨機場(馬爾可夫權衡了證據)

  • 馬爾可夫網路是一組有著相關權重的特徵,其定義了一個概率分佈
  • 它確實是一個無向圖模型
  • 應用:影象分割(把每個畫素看作一個結點)

思考 & 重點:

  1. 有兩種統計學家,一種是頻率學派,認為頻率就是概率。另一種是貝葉斯學派的,用新資料更新先驗概率,以得出後驗概率。
  2. 貝葉斯網路是有向圖模型,背後的定律就是貝葉斯理論。
  3. 貝葉斯網路推論可以使精確或近似值。
  4. MLE 和 MAP 是完全不同的估計方法。
  5. 馬爾可夫隨機場是一種無向圖模型。

第六週 Q & A 總結

  1. 什麼是貝葉斯定理?
  2. P(A|B) = P(A) P(B|A) / P(B)「貝葉斯」定理只是一個說明了你在看到新證據是會更新相信程度的簡單規律:如果證據和假設一致,假設的可能性就會提高,反之則降低。
  3. 什麼是樸素假設,它在樸素貝葉斯分類器中扮演了什麼角色?
  4. 「樸素假設:所有特徵都是條件獨立於給定類別標籤的。」角色:它是樸素貝葉斯分類器的基礎。
  5. 隱馬爾可夫模型(HMM)和馬爾可夫模型之間的差別在哪裡?
  6. HMM 是馬爾可夫模型中的一類,有著未被觀察的(或部分被觀察的)系統狀態。
  7. 為何領域知識對與影象模型的構建和推論很重要?

相關文章