讀天才與演算法:人腦與AI的數學思維筆記03_AlphaGo

躺柒發表於2024-04-18

1. 國際象棋

1.1. 1997年計算機“深藍”(Deep Blue)擊敗了頂尖國際象棋手,但機器取代數學研究機構還言之尚早

1.2. 下國際象棋與數學的形式化證明頗有相似之處,但學者認為中國圍棋的思維方式更能夠體現數學家思考的創造性和直覺力

1.3. 國際象棋與圍棋相比,則是隨著棋子一個個被吃掉,棋局變得越來越簡單

1.4. 電腦科學家克勞德·夏農(Claude Shannon)估計的國際象棋走法數量約為120位(稱為夏農數)

1.5. 國際象棋的行棋步驟以一種可控、有序的方式逐級建立分支,最終形成一個包含各種可能性的樹狀結構,計算機甚至人類都可以根據邏輯規則逐級分析不同分支的蘊含關係

1.6. 國際象棋更容易進行得分評價

1.6.1. 國際象棋是破壞性的,在行棋過程中,棋子會被一個個吃掉

1.6.2. 棋局會逐步簡化

2. 圍棋

2.1. 圍棋很像數學,可以在相當簡單的規則下形成精妙絕倫、錯綜複雜的推理

2.2. 據美國圍棋協會(American Go Association)估計,圍棋的可能走法數量是一個大約有300位的數字

2.3. 圍棋就不是一種易於推算下一步行棋對策的遊戲了,我們很難建立圍棋行棋可能性的樹狀圖

2.4. 圍棋棋手推演下一步落子策略的過程似乎更依賴於自身的直覺判斷

2.5. 圍棋最重要的一點,是可以透過客觀的方法檢驗新的行棋思路是否具有價值

2.6. 人類的大腦可以敏銳地捕捉到視覺影像所呈現出的結構和模式,所以圍棋棋手可以透過觀察棋子佈局來推斷棋勢,然後得出下一步的應對策略

2.6.1. 人類大腦的視覺結構處理能力作為一種基本的生存技能,經過數百萬年的進化已經變得高度發達

2.6.2. 任何動物的生存能力在一定程度上都取決於它在形態萬千的自然界中對不同結構影像的識別能力

2.6.2.1. 原本平靜的叢林之中激起的一絲混亂,極有可能預示著另一種動物的潛入

2.6.2.2. 這類敏感資訊備受動物們的關注,因為它關係到自己會成為獵物還是獵食者,這就是大自然的生存法則

2.6.2.3. 人類的大腦非常擅長識別模式並預測它們的發展方向,同時做出適當的反應

2.7. 計算機程式學習下圍棋非常困難的主要原因之一,因為到目前為止,還沒有一種簡單易行的方法可以建立起一套穩妥的系統,去評價對弈雙方的領先狀況

2.7.1. 圍棋則不然,它是建設性的,行棋越多,棋盤上的棋子越多,棋局也越來越複雜

2.8. 對圍棋下法的革新一直持續不斷、屢見不鮮

2.8.1. 最近一次是圍棋界的傳奇人物吳清源大師於20世紀30年代開創的新棋法,他的佈局之法顛覆了傳統圍棋佈局的常用套路

2.8.2. AlphaGo可能會引發一場更大的圍棋“革命”

2.8.2.1. 雖然人類已經發明圍棋數千年了,但人工智慧技術的出現讓我們感覺到人類對圍棋的理解仍然還很膚淺

2.9. 區域性極大值

2.9.1. 圍棋演算法是陷入數學家們所說的“區域性極大值”的困境當中的

2.9.2. 圖

2.9.3. 在傳統棋法的影響之下,圍棋已發展出固有的一套成規,應用好這些規則的確能讓棋手登上A峰

2.9.4. AlphaGo的出現撥開了迷霧,打破了這些規則對思維的束縛,使我們看到了更高的B峰

2.9.4.1. AlphaGo使用了一些新手都不會用的低階招式

2.9.4.2. 傳統下法中棋手不會在三行三列交叉點上落子,但AlphaGo卻向我們展示瞭如何利用好這一招併為整個棋局帶來新的機遇

2.9.5. 圍棋比賽的統計資料顯示,使用傳統下法的棋手通常會輸給使用新下法的棋手兩子

3. 戴密斯·哈薩比斯

3.1. Demis Hassabis

3.1.1. 雖然劍橋大學破格錄取了他,但由於年齡太小,學校要求他晚一年入學

3.1.2. 課堂上教授卻反覆強調:“圍棋極具創造性和直覺性,計算機永遠下不好圍棋。”

3.1.3. 當他從劍橋畢業時,他決心透過自己的努力來證明教授的言論是錯誤的

3.2. 與其編寫一個會下圍棋的程式,不如編寫一個通用性的“元程式”,它可以用於編寫出會下圍棋的程式

3.3. 重點是“元程式”在實現以後將具有模式學習能力,隨著經歷的棋局越來越多,該程式會在下棋過程中自我學習,不斷地從錯誤走法中總結經驗並加以改進

3.4. 新生兒的大腦並沒有預先設定應對生存挑戰的方法,但他們會透過不斷學習來強化自我,根據環境的變化做出適當的調整

3.4.1. 瞭解大腦的工作原理有助於實現自己建立一個會下圍棋的計算機程式的夢想

3.5. 把人工智慧演算法比作哈勃望遠鏡,認為它是一種可以用來探索比以往更深、更遠、更廣領域的工具

3.5.1. 它會提升而不是取代人類的創造力

3.6. 考慮到未來的發展,哈薩比斯決定將公司賣給谷歌

3.6.1. 本來我們並不想這麼做,但在過去3年裡,為了籌措資金,我只有10%的時間用於研究。所以,我意識到,我的人生可能沒有足夠的時間,既能把公司發展成谷歌那樣的規模,又可以在人工智慧領域有所建樹。這樣的選擇對我來說並不難

3.6.1.1. 哈薩比斯

3.6.2. 【躺柒】評:既要..也要..,最後很可能啥都沒有;捨得,捨得,有舍才有得;在每天時間總量不變(1天24小時)或者人生時長有定數(神龜雖壽 猶有竟時)的情況下,就看如何分配了

4. DeepMind

4.1. 2010年9月,哈薩比斯與神經學家謝恩·萊格(Shane Legg)與穆斯塔法·蘇萊曼(Mustafa Suleyman,哈薩比斯從小一起長大的好友)三人建立了公司,即DeepMind

4.1.1. 只有埃隆·馬斯克(Elon Musk)、彼得·蒂爾(Peter Thiel)等極少數的投資人看好這家公司的前景並注入了資金

4.2. 在開始階段選擇了一個相對簡單的目標:20世紀80年代的雅達利(Atari)遊戲

4.2.1. 雅達利遊戲的複雜性不可與古老的中國圍棋同日而語

4.3. 打磚塊遊戲是一個完美的測試用例,可以檢驗DeepMind團隊是否具備開發能夠學會玩遊戲的程式的能力

4.3.1. 該程式不會預先設定遊戲規則,而是透過隨機選擇不同的“動作”(比如在打磚塊遊戲中移動球拍或是在Space Invaders遊戲中發射鐳射炮射擊外星人)不斷試驗,對相應的得分情況進行評估,分析其結果是有效提升還是止步不前

4.3.2. 該程式的實現基於20世紀90年代提出的強化學習(reinforcement learning)思想,目的在於根據分數的反饋或獎勵函式來調整執行動作的機率

4.3.3. 新的演算法將強化學習與神經網路相結合,後者將評估畫素的狀態以確定哪些特徵與加分有直接關係

4.3.4. 程式在不斷試驗的過程中,可以真正學會透過特定的移動來提高它在遊戲中的得分

4.3.5. 現在計算機程式不僅做到了,而且還做得更快、更好

4.4. 對他們而言,只針對一款遊戲編寫程式有些太簡單了

4.4.1. 到了2014年,也就在DeepMind成立4年後,該專案在已經涉足的49款雅達利遊戲的29款中獲得了優於人類玩家的表現

4.5. 該團隊在2015年初向《自然》雜誌提交的論文中詳細介紹了他們的研究成果

4.5.1. 在《自然》雜誌上發表論文是科學家在科研事業上的重要里程碑,可DeepMind團隊的論文不僅獲得了極高的讚譽,還登上了雜誌的封面

4.5.2. 這是人工智慧發展史上的重要時刻。

4.5.2.1. 《華爾街日報》評論

4.6. DeepMind團隊現在把目光投向了其他領域:醫療保健、氣候變化、能源效率、語音的生成和識別、計算機視覺

5. AlphaGo

5.1. AlphaGo是戴密斯·哈薩比斯(Demis Hassabis)智慧的結晶

5.2. 唐納德·米基

5.2.1. Donald Michie

5.2.2. 人工智慧研究員

5.2.3. 20世紀60年代米基編寫了一個名為“MENACE”的演算法,該演算法可以零基礎學習翫井字棋遊戲的最佳策略(MENACE代表匯出〇和×策略的引擎)

5.3. 此前人們開發的下圍棋程式,甚至很難與業餘的優秀圍棋選手相匹敵

5.3.1. Crazy Stone是唯一一款接近高水平棋手的圍棋程式

5.4. 2015年10月,他們決定組織一場非公開的人機對弈來測試程式,對手是當時的歐洲冠軍——來自中國的樊麾

5.4.1. 在世界圍棋比賽中,歐洲頂級選手只能位列600名左右

5.4.2. 好比製造出一輛無人駕駛汽車然後在銀石賽道上擊敗了人類選手駕駛的福特嘉年華,並不意味著它能在F1大獎賽中戰勝劉易斯·漢密爾頓(Lewis Hamilton)

5.5. 在某些特定引數配置下,AlphaGo似乎完全無法評估出到底是誰掌控了比賽,常常會產生一種錯覺,以為自己贏了,而實際情況卻恰恰相反

5.6. 對於一般的基於開放式資料庫的程式來說,不按套路出牌的策略非常管用

5.6.1. 不僅可以使機器手足無措,還可能誤導機器在棋局的重要關口或是長遠戰略決策上犯下致命錯誤

5.6.2. 遇到AlphaGo,這個如意算盤可就打空了

5.6.2.1. AlphaGo可以實時動態評估棋局形勢,並根據以前的經驗制定出最佳策略

5.7. 帶來希望,是因為正是人類的這種情緒反應激勵著我們去探索未知、開創未來,畢竟還是人類給AlphaGo編寫了制勝的程式碼

5.7.1. 感到憂心,是因為機器太過“冷漠”,它根本就不關心事情發展的最終結局是不是程式編寫者所期望的

5.8. 從表面上看,AlphaGo所能做的僅僅是下圍棋,但實際上,它的學習和適應能力才是最值得人類關注的一種全新的東西

5.8.1. 登月並沒有產生關於宇宙的非凡的新突破,但卻意味著我們為實現這一壯舉而開發的技術產生了非凡的新突破

5.9. 真正的洞察力源於對棋局的綜合把控

5.9.1. 這些棋類遊戲現在已經成為挖掘新思想的寶庫

6. 李世石九段對陣谷歌AlphaGo五番棋賽

6.1. 在酒店內的比賽現場卻是封閉和保密的

6.1.1. 媒體和現場觀眾的任何行為都不會讓AlphaGo分心,因為機器無論在什麼狀態下,都會保持“禪宗大師”一般的定力,呈現出一種完美的專注狀態

6.2. 第一局

6.2.1. 第一局比賽中AlphaGo所走的每一步棋還是符合人類邏輯思維的,現場的專家也能夠講解和分析棋局

6.2.2. 李世石執黑先行,作為白方的DeepMind團隊由其成員黃士傑(Aja Huang)代替AlphaGo行棋

6.2.2.1. 畢竟AlphaGo只是人工智慧程式而不是能夠自己下棋的機器人

6.3. 第二局

6.3.1. AlphaGo下出第37手:黃士傑在距離棋盤邊緣5步的位置落下一顆黑子

6.3.1.1. 這一招使得包括李世石在內的所有人都倍感震驚

6.3.1.2. 在第5條線上落子一般被認為是不太恰當的選擇

6.3.1.2.1. 因為這會給對手可乘之機:建立一個既可在短效、區域性區域內搶得先手,又可在長遠、全域性範圍內影響勝負的策略

6.3.1.3. 這確實不是人類的行棋方法

6.3.1.4. 這一著非但不是臭棋,反而是立意深遠的妙手

6.4. 第三局

6.4.1. 怠惰走法(lazy moves)的策略

6.4.1.1. 透過分析,AlphaGo確信自己最終可以獲勝,正因為如此,它選擇了這種安全的策略

6.5. 第四局

6.5.1. 李世石採用了一種更為激進、極端的“先撈後洗”(amashi)的策略

6.5.2. “勝負手”(all-or-nothing)策略可能會讓AlphaGo更難輕易得分

6.5.3. 當AlphaGo的棋路開始變得保守,頻頻使用怠惰走法時,就標誌著AlphaGo已經確認自己領先了

6.5.4. 第78手就是李世石的逆襲大招

6.5.4.1. 當AlphaGo意識到自己失敗後,會做出一些令人費解的瘋狂行為

6.5.4.2. AlphaGo的行為沒有透過圖靈測試,因為任何一個具有戰略眼光的人都不會做出那樣的決策

6.5.4.3. 這一步棋打破了傳統棋路,是為整局比賽帶來深遠影響的關鍵所在

6.5.4.3.1. ‘上帝之手’

6.5.4.4. AlphaGo與人類對弈的歷史經驗讓它完全摒棄了某些思考

6.5.4.4.1. 根據它的評估,那種下法只有萬分之一的可能性會出現

6.6. 第五局

6.6.1. 經過第四局,AlphaGo也收穫頗豐

6.6.1.1. 現在就算李世石在第10 000手下出違反常規的怪招,它也不會再想著僥倖過關了

6.7. 李世石認為不只機器可以學習和進化,人也可以從失敗中學到一些東西

6.7.1. 與一群職業棋手分析和探討此前兩場比賽中失利的原因,這場討論一直持續到次日清晨6點

6.8. 演算法的強大之處:從錯誤中吸取教訓,進而反敗為勝

6.8.1. 並不意味著AlphaGo不會再犯新的錯誤

7. 向人類宣戰

7.1. 我們在持續重構世界秩序,直覺始終被尊崇。

7.1.1. 保羅·克利(Paul Klee)

7.2. 只在區域性環境中按部就班地進行邏輯分析走不了太遠,必須與發現“可能存在物”的直覺相結合才有可能取得顯著的突破

7.2.1. 有些數學猜想雖然未得到證明,但提出猜想的數學家經常能感覺到在他的論述中暗含著某種真理

7.2.2. 善於提出好的猜想的數學家比善於證明猜想的數學家更值得尊敬

7.2.3. 束縛我們認知的障壁,會在計算機技術日新月異的發展中被瞬間攻破

7.3. 一些在誕生之初就受到指摘的事物,往往經歷幾代人才會逐漸被接受並被視為具有革命性的創新

7.3.1. 並不被19世紀的人們所認可或知曉的貝多芬的交響樂,現在被譽為藝術的巔峰

7.3.2. 凡·高的一生中,幾乎沒有售出過畫作,它們只能用來交換食物或繪畫材料,但現在他的大作卻可以賣出數百萬美元的高價

7.4. 當我們得知再怎麼努力也只能成為屈居於機器之後的第二梯隊棋手時,確實會意志消沉

7.4.1. 雖然機器的程式還是人編寫的,但這也不會讓人有挽回顏面的感覺

7.5. DeepMind團隊將要開發出來的程式居然有可能讓數學家丟掉飯碗,而創造這些程式的工具正是數學家們歷經幾個世紀的不懈努力才發現和創造出來的

相關文章