[譯] 給人類的機器學習指南??

sisibeloved發表於2018-06-03

簡單易懂的英文解釋加上數學、程式碼和真實案例。

[更新於 9/1/17] 這個系列已經有完整的電子書了!下載地址

導覽

章節 1:論機器學習的重要性 人工智慧和機器學習的廣闊畫卷 —— 過去、現在和未來。

章節 2.1:監督學習 學習解決方案。介紹線性迴歸、損失函式、過擬合和梯度下降。

章節 2.2:監督學習 II 兩種分類方法:邏輯斯蒂迴歸和支援向量機(SVM)。

章節 2.3:監督學習 III 無參學習器:k-近鄰演算法、決策樹、隨機森林。介紹交叉驗證、超參調整和整合模型。

章節 3:無監督學習 聚類:K-均值方法、分級。降維:主分量分析(PCA)、奇異值分解(SVD)。

章節 4:神經網路和深度學習 深度學習的工作原理。從人類的大腦中汲取靈感。卷積神經網路(CNNs)、迴圈神經網路(RNNs)。實際應用。

章節 5:強化學習 探索和開發。馬爾可夫決策過程。Q-學習、政策學習和深度強化學習。價值學習問題。

附錄:機器學習的最佳資源 精選的資源列表,用於建立您自己的機器學習課程。

面向的讀者有哪些?

  • 想要快速熟悉機器學習的技術人群
  • 想要入門機器學習並願意接受技術概念的非技術人群
  • 對於機器是如何思考感興趣的讀者

這份指南老少皆宜。我們將會討論概率、統計、程式設計、線性代數和微積分的基本概念,但就算沒有基礎知識亦能有所收穫。

這個系列是一份在約 2~3 小時內快速熟悉高水平的機器學習概念的指南。

如果你想知道哪些課程值得學習、哪些書值得閱讀、哪些專案值得嘗試等等,看看我們在附錄:機器學習的最佳資源裡的推薦吧。

論機器學習的重要性

與本世紀的其他創新相比,人工智慧比更具前景。任何不瞭解它的人都會在一個充滿夢幻般高科技的世界中幡然悔悟,發現自己的落伍。

人工智慧的進步已然異常驚人。在過去四十年的一系列 AI 寒冬和不切實際的希望 之後,近些年資料儲存和計算機運算效能上的飛速進步急劇地改變了遊戲規則。

在 2015 年,Google 訓練了一個對話機器人(AI),不僅能夠作為一個稱職的技術支援顧問與人類進行交流,還能討論道德、發表意見並回答一些基於現實的問題。

[譯] 給人類的機器學習指南??

Vinyals 和 Le,2017

同年,DeepMind 開發了一個智慧體,僅接收畫素和遊戲分數作為輸入,並在 49 個 Atari 遊戲中超越了人類的表現。不久之後,在 2016 年,DeepMind 釋出了一種全新的名為 A3C 的適用於人工智慧進行遊戲的方法,從而超越了先前的成就。

同一時期,AlphaGo 戰勝了一位頂尖的圍棋高手 —— 距機器首次在國際象棋上戰勝人類已經過去了二十年,圍棋這個領域一直被人類統治著,這可謂是一次驚人的勝利。許多高手無法領會機器怎麼可能瞭解這個古老的中國戰爭藝術遊戲的細節和複雜度,畢竟它有著 10¹⁷⁰ 種可能的對局(宇宙中只有 10⁸⁰ 個原子)。

[譯] 給人類的機器學習指南??

職業圍棋選手李世石在與 AlphaGo 對戰落敗後覆盤。The Atlantic 攝。

在 2017 年 3 月,OpenAI 創造了能夠發明自己的語言來合作並更加有效地達成目標的機器人。不久後,Facebook 宣佈正在訓練能夠談判甚至撒謊的機器人。

就在(本文完成的)幾天前,在 2017 年 8 月 11 日,OpenAI 在線上多人對戰遊戲 Dota 2 中,1v1 戰勝了世界頂尖的職業選手,完成了另一個令人難以置信的里程碑。

[譯] 給人類的機器學習指南??

YouTube 上觀看這場國際邀請賽 2017(Ti 7)中 Dendi(人類)對陣 OpenAI(機器人)的完整比賽。

許多生活中常見的技術都離不開人工智慧。在你下一次前往臺灣的旅程中,使用 Google Translate 應用,將相機對準選單掃一掃,對應的選單項會神奇地變成英文。

[譯] 給人類的機器學習指南??

Google Translate 通過卷積神經網路,實時地將英文翻譯覆蓋到飲品選單上面。

如今 AI 被用來為癌症患者制定基於病情的治療計劃、從藥物測試中即時分析結果以便快速分配合適的專家,和開展發現藥物的科學研究

[譯] 給人類的機器學習指南??

位於倫敦的 BenevolentAI 的大膽宣言(截圖自關於我們頁面,2017 年 8 月)。

在日常生活中,機器取代傳統意義上人類扮演的角色變得越來越普遍。真的,如果下次你打電話給酒店前臺讓他們送一些牙膏,出現在你面前的是一個小小的家務運輸機器人,而不是一個真人時,請不要驚訝。

[譯] 給人類的機器學習指南??

在本系列中,我們將探討這些技術背後的核心機器學習概念。在完成整個系列之後,你應該不僅能從概念上描述它們運作的原理,並且可以熟練運用工具來構建類似的你自己的應用程式。

語義樹:人工智慧和機器學習

一點小建議:將知識看成一種語義樹 — 確保你理解了基本原理(主幹和分支),然後再去看樹葉/細節,否則它們會無處可棲。 — Elon Musk,Reddit 有問必答

[譯] 給人類的機器學習指南??

機器學習是人工智慧的眾多子領域之一,關注如何讓計算機學習經驗和提升思考、計劃、決定和行動的能力。

人工智慧是對智慧體的研究,他們感知媒介周圍的世界,形成計劃並做出決定以實現其目標。 它的基礎包括數學、邏輯學、哲學、概率學、語言學、神經科學和決策論。許多領域屬於人工智慧的範疇,例如計算機視覺、機器人科學、機器學習和自然語言處理。

機器學習是人工智慧的子領域。 它的目標是讓計算機自行學習。一個機器學習演算法使它能夠識別觀測資料中的模式,構建能夠解釋世界的模型,並在沒有確切的預程式設計規則和模型的情況下預測事物的發展。

人工智慧效應:什麼才是“人工智慧”?

“人工智慧”的技術標準有點模糊,並且隨著時間推移而不斷改變。AI 這個標籤通常用來形容能在傳統領域取代人類的機器。有趣的是,一旦計算機知道如何完成這些任務,人們通常會說它不是真正的智慧。這被稱為 AI 效應

例如,IBM 的深藍在 1997 年擊敗了世界國際象棋冠軍 Garry Kasparov 時,人們抱怨說它使用的是『蠻力』的方法,根本不是『真正』的智力。正如 Pamela McCorduck 所寫的,『人工智慧領域的歷史的一部分,就是每當有人想出如何讓計算機做某事時 —— 成為一個出色的棋手,解決簡單但相對沒那麼正式的問題 —— 就有一群評論家跳出來說,「那不叫思考!」』McCorduck,2004)。

可能人類對於毫無保留地接收所謂的『人工智慧』有種難以言述的抗拒吧:

『人工智慧永遠不可能實現。』 —— 侯世達

那麼計算器能算 AI 嗎?在某些解釋中也許能算。那一輛自動駕駛汽車呢?在今天是的,而在未來或許算不上。新型的能夠自動完成流程圖的很酷的聊天機器人專案呢?當然……為什麼不呢。

強大的人工智慧將永遠改變我們的世界;想了解這個過程,學習機器學習是一個很好的入口。

上面討論的技術是 狹義人工智慧(ANI) 的例子,它可以有效地執行一個狹義上的任務。

同時,我們還在繼續向製造類人級別的廣義人工智慧(AGI),也被稱為強人工智慧努力。AGI 的定義是一種人工智慧,它能成功地完成人類所能從事的任何智力活動,包括學習、計劃和不確定情況下的決策、用自然語言交流、開玩笑、操縱人、買賣股票或……對自身進行重程式設計。

而這最後一項是個大問題。一旦我們建立了一個可以改進自身的 AI,它將開啟一個自我完善的迴圈,這可能導致在某一時期發生智力爆炸,從幾十年到一天都有可能。

定義超級智慧機器為一臺機器,它可以在智力活動中遠超任何聰明的人。因為設計機器是這些智力活動中的一種,超級智慧機器可以設計出更好的機器;毫無疑問,這將是一個『智力爆炸』,而人類的智力將遠遠落在後面。因此,第一臺超級智慧機器是人類需要進行的最後一項發明,只要機器足夠溫順地告訴我們如何控制它。 —— I.J. Good,1965

你可能聽說過這一點被稱為奇點。這個術語源自黑洞中心的引力奇點,黑洞是一個無限密度的一維點,在那裡,我們瞭解的物理定律開始不復存在。

[譯] 給人類的機器學習指南??

我們對黑洞邊界之內的事情一無所知,因為沒有光可以從黑洞的捕捉中逃逸。同樣地,當我們解鎖了 AI 迴圈改進自身的能力之後,也沒有人能夠預測將會發生什麼,就像創造出一個人類的老鼠可能無法預測人類會對他們的世界做什麼一樣。 他會繼續幫它們獲取更多乳酪,就像它們預期的那樣嗎?(圖片來自 WIRED

人類未來研究學院最近釋出了一份報告,對人工智慧領域的研究者進行了 AGI 的時限調查,發現『研究人員認為,人工智慧有 50% 的機率在 45 年內在任何領域中勝過人類』(Grace 等人,2017)。我們曾與一些理智的人工智慧實踐者私下交談過,他們預測的時限更長(上限是『永遠』),而其他人給出的時限驚人地短 —— 僅僅只有幾年。

[譯] 給人類的機器學習指南??

來自 Kurzweil 的《奇點臨近》,發表於 2005。現在,在 2017,只有幾張海報能夠名正言順地留在牆上了。

比人類級別更高的 超級人工智慧(ASI) 的出現對人類來說可能是最好或最壞的事情之一,它帶來了一個巨大的挑戰,即用有利於人類的方式確定 AI 想要什麼。

雖然說不好未來會發生什麼,但有一點是肯定的:2017 年是開始理解機器如何思考的好時機。 不僅僅是像坐在扶手椅上的哲學家,帶著對人工智慧的尊重睿智地制定我們的路線圖和政策這樣抽象的理解,我們必須接觸機器如何看待世界的細節 —— 他們“想要”什麼,他們潛藏的偏見和失效模式,他們的性格怪癖 —— 就像我們研究心理學和神經科學,以瞭解人類如何學習、決定、行動和感覺。

關於人工智慧存在著複雜的、高風險的問題,這些問題需要我們在未來幾年的認真關注。

我們該如何抑制人工智慧進一步控制現有的資料集中明顯的系統偏差的傾向?我們應該如何看待世界上最好的技術專家之間關於人工智慧潛在的風險和收益的分歧?在一個沒有工作的世界裡,人類的追求會發生什麼變化?

機器學習是我們實現廣義人工智慧的核心,同時,它將改變每一個行業,並對我們的日常生活產生巨大的影響。這就是為什麼我們認為機器學習值得了解,至少在概念層面上是這樣的 —— 因此我們推出了這個系列,作為最佳的入門讀物。

怎樣閱讀這個系列

你可以不必按部就班地閱讀這個系列。根據你自己的興趣和空餘時間,有三種方法推薦給你:

  1. T 形閱讀法。 從頭讀到尾。用你自己的語言概括一下每一個章節的內容(見:費曼技巧);這樣能夠提升閱讀的積極性並加深記憶。然後在你最感興趣或與工作關聯最為緊密的地方深入鑽研。我們將會在每一章的結尾介紹一些擴充資源。
  2. 專注閱讀法。 跳到你最感興趣的地方並把你的精力花在那兒。
  3. 80/20 法 先通讀全文,標記一些有趣的高階概念,然後花一晚時間好好鑽研。?

關於作者

[譯] 給人類的機器學習指南??

『讀完這篇短文,我們就能理解什麼是梯度下降了。』 來自愛丁堡的@ The Boozy Cow

Vishal 最近創辦了 Upstart,一個利用機器學習來定價、自動化借貸過程並獲取使用者的借貸平臺。他熱衷於應用認知科學、道德哲學和人工智慧倫理學來創業。

Samer 是 UCSD 一位正在攻讀電腦科學與工程的碩士生,並且是 Conigo Labs 的創始人之一。在畢業之前,他建立了 TableScribe,一個面向中小企業的商業智慧工具,並在麥肯錫公司待了兩年,為財富 100 強公司提供諮詢服務。Samer 之前在耶魯學習了電腦科學、倫理學、政治學和經濟學。

這個系列的大部分內容都是在為期 10 天的英國之行中寫下的,經歷了火車、飛機、咖啡館、酒吧以及種種浮光掠影。我們的目標是鞏固我們對人工智慧、機器學習、以及其中的方法如何結合在一起的理解 —— 並在這個過程中創造出值得分享的東西。

現在,不要遲疑,讓我們進入章節 2.1:監督學習,開始探索機器學習的世界吧!


更多給人類的機器學習指南??系列:

聯絡人:ml4humans@gmail.com

特別感謝 Jonathan EngEdoardo ContiGrant SchneiderSunny KumarStephanie HeTarun WadhwaSachin Maini(系列編輯)的不可或缺的貢獻和反饋。


掘金翻譯計劃 是一個翻譯優質網際網路技術文章的社群,文章來源為 掘金 上的英文分享文章。內容覆蓋 AndroidiOS前端後端區塊鏈產品設計人工智慧等領域,想要檢視更多優質譯文請持續關注 掘金翻譯計劃官方微博知乎專欄

相關文章