讀天才與演算法:人腦與AI的數學思維筆記06_演算法的進化

躺柒發表於2024-04-22

1. 現代演算法

1.1. 知識不僅建立在真理之上,也建立在錯誤之上。

1.1.1. 卡爾·榮格(Carl Jung)

1.2. 現代演算法是可以自學的,尤其是推薦系統演算法,它可以根據每個人的喜好推薦有趣的東西給我們

1.2.1. 演算法透過與使用者之間的互動過程,獲取使用者的個人偏好資訊,並從中學習進一步完善自身,發現其中的關聯關係,以便為下一位使用者提供更優質的推薦資訊

1.2.2. 比如說適合的電影、書籍、音樂,等等

1.3. 人機互動給演算法提供了持續學習的新資料,使它可以不斷進行自我調整以適配我們的喜好

1.3.1. 在當今社會,這些演算法在我們做出各種抉擇時發揮了巨大作用:選擇電影、音樂、書籍,甚至伴侶,等等

1.4. 機器學習的一個重要特點是,人類必須參與到資料的分類過程中,以便讓機器知道它所看到的到底是什麼

1.5. 從最原始的資料中學習並發現模式是訓練演算法最好的方式

1.5.1. 事實上,原始資料所蘊含的資訊遠比我們想象的要多

1.5.2. 它們有發掘新事物的潛力

1.5.2.1. 深度學習演算法提取出了人類無法用語言描述和表達的特徵資訊

1.5.2.2. 就好比在沒有建立顏色的概念,也沒有紅色或藍色這種表示顏色的詞彙的情況下,僅僅透過我們對所見事物表現出的好惡,計算機就能幫我們實現藍色和紅色的分類

1.6. 資料像是一種新型“石油”,而我們卻把它“倒”在網際網路上了

1.6.1. 誰擁有這些資料以及如何利用好這些資料,將是我們走向由這種新型“石油”推動的未來時,社會將要面臨的一個重大問題

2. 電影推薦系統

2.1. 電影推薦系統的演算法原理比較簡單

2.1.1. 假定你喜歡電影A、B和C,而另一個使用者也喜歡它們,但他還喜歡電影D,那麼,D極有可能也是你所喜歡的

2.1.1.1. 現實中資料之間的邏輯關係並非如此簡單

2.1.2. 演算法透過檢視你所提供的資訊,分析出你喜歡某類電影的原因,進而會把你和那些曾經做出過相同選擇的人匹配、關聯到一起

2.1.3. 演算法在使用者瀏覽影片庫的行為過程中拾取關鍵特徵值

2.1.3.1. 計算機最終學會的是已知的知識,而不能發現新的潛在趨勢,從而導致計算機形成擬人態的思維定式

2.2. 如果希望藉助計算機找出資料中包含的資訊,那麼就需要降維處理

2.2.1. 電影和使用者就像臉上一個一個的點,以一個角度投影,可能會看到這些點連成一條線,而以另外的一個角度投影,則可能並不會發現有明顯的資訊出現

2.2.2. 將高維空間中的電影和使用者對應的點同時投射到一個二維平面上,這樣使用者對應的點就會非常接近他喜愛的電影所對應的點

2.2.2.1. 巧妙之處就在於,能夠尋找到揭示影片、使用者所具有的潛在特徵的合適投影

2.2.3. 巧妙之處就在於,能夠尋找到揭示影片、使用者所具有的潛在特徵的合適投影

2.2.4. 將高維空間投射到這20個特徵所構建的20維空間中

2.2.4.1. 劇情片聚集在右上角,動作片聚集在左下角

2.2.5. 藉助計算機強大的運算能力,從海量的投影方案中挑選出最好的那一個

2.2.5.1. 這正是計算機的強大之處,它的這種能力是人類的大腦和眼睛所無法企及的

2.3. 存在太多的因素影響著我們的決定,我們無法準確地描述出為什麼喜歡某部電影

2.3.1. 決定個人偏好的人類程式碼遵循什麼樣的演算法原理是隱性的,但計算機程式碼已經識別出了引導我們偏好的特徵,而這些特徵我們僅可憑直覺感知,卻無法表達出來

2.3.2. 計算機程式碼在這一點上已經遙遙領先於人類了

2.4. 《斷背山》因子

2.4.1. 她是一個未出櫃的同性戀母親,有關她對電影喜好的資料可能會暴露出她的性取向

2.4.2. 隱私權保護政策

3. 訓練演算法

3.1. 如果演算法告訴你你可能會喜歡什麼,那麼就意味著你將永遠都看不到演算法認為你不喜歡的東西

3.2. 演算法都採用了非線性或混沌理論的數學思想

3.2.1. 我和你喜歡的音樂風格只要略微不同,那麼被推薦的歌曲將會大相徑庭

3.2.2. 演算法“連推帶拉”地引導我從音樂庫中挖到屬於我自己的“寶石”

3.3. 電子郵件過濾器也是基於人機互動訓練演算法工作的

3.3.1. 電子郵件過濾器也是基於人機互動訓練演算法工作的

3.3.2. 只有在郵件有95%的機率是垃圾郵件的情況下,該郵件才應該進入“垃圾郵件”資料夾

3.3.3. 現在更酷的是:雖然演算法的訓練資料是一組普通的電子郵件,但你的日常行為也將教會它識別你感興趣的事情

3.3.3.1. 演算法會根據你所發出的郵件做出判斷

3.3.4. 演算法還會自主建立新的演算法,用於從所有包含“糖尿病”一詞的郵件中區分出垃圾郵件和正常郵件

3.3.4.1. 其方法是引入其他的關鍵詞,例如“治癒”

3.4. 無人駕駛汽車也是基於這樣的機率更新原理而設計的,雖然它的控制系統遠比這複雜得多

3.4.1. 該演算法根據感知所獲得的道路、車輛位置和障礙物資訊等,來控制車輛的轉向和速度

4. 偏見和盲點

4.1. 人類的大腦不擅長進行機率分析,這是進化的失敗

4.1.1. 機器學習可以看作對人類思維方式的補充,而不僅僅是簡單的複製

4.2. 機率直覺感知力的構建必須基於大量的試驗,然後從中發現可能的趨勢性

4.2.1. 我們缺乏大量試驗的機會,所以無法建立這種直覺

4.2.2. 從某種程度上來說,機器程式碼的發展彌補了人類大腦在資料互動方面低速率的缺陷

4.3. 機器掌握了人類所不具備的一項技能:對海量資料進行分析,並從中發掘出有價值的資訊

4.4. 機率是機器學習的核心

4.4.1. 宇宙是由數學方程控制的,科學家的任務是發現其中蘊含的規律並用它們來預測未來

4.4.2. 量子物理理論認為,世界就像上帝在玩骰子,結果具有不確定性,取決於事件發生的機率

4.4.3. 機率思想主導下形成的演算法具有非常強大的力量,這或許是為什麼在新演算法的世界中,那些受過物理思維訓練的人比數學學者顯得更遊刃有餘

4.4.3.1. 這是理性主義與經驗主義之間的對抗

4.5. 美軍用神經網路訓練機器識別坦克圖片

4.5.1. 一個經典的反面教材

4.5.1.1. 暴露了機器學習的一個缺點:它有時會把某些關聯誤認為是因果關係

4.5.1.1.1. 並不總是能夠確定這之間存在什麼樣的因果關係

4.5.2. 該演算法的訓練資料是一些帶標籤的圖片(標記出哪些有坦克,哪些沒有坦克)

4.5.3. 透過對這些圖片進行分析,演算法獲得了識別坦克的重要特徵

4.5.3.1. 研究小組只是獲得批准有權使用坦克有限的幾天,所以他們將坦克開到不同地方,拍攝了大量位於不同偽裝位置的照片,但沒注意到那些天一直都陰陰沉沉的

4.5.3.2. 返回後,他們拍攝了一些沒有坦克的鄉村照片,但那時的天空是異常晴朗的

4.5.4. 在分析了數百張帶標籤的圖片之後,研究人員用一些演算法從未見過的圖片進行測試,結果非常振奮人心,識別準確率達到了100%

4.5.5. 只要圖片拍攝於陰天,探測器就能做出正確的判斷

4.5.5.1. 用這些照片作為訓練資料,演算法就誤認為晴天和陰天也是區分坦克的重要特徵

4.6. 機器是能夠學習的,但前提是你要讓它學習對的東西

4.7. 很多證據表明,演算法中暗藏著歧視和偏見

4.7.1. 雖然針對大量的人臉影像進行了訓練,但這些資料中黑色皮膚的面孔較少

4.7.2. 針對男性的聲音進行訓練的語音識別軟體識別不了女性的聲音

4.7.3. 某影像識別軟體將黑人辨認為大猩猩

4.7.4. 護照照片拍攝軟體不適用於亞洲人,原因是它始終認為他們在拍照時閉眼了

4.8. 法律體系也面臨著考驗,申請抵押貸款、應聘工作、申領社會福利被演算法程式拒絕後,人們有理由知道為什麼

4.8.1. 由於演算法是基於資料互動構建決策樹的,證明其決策的合理性並不容易

4.9. 人工智慧領域一直呼籲開發一種元語言,機器可用它來證明自己的決策是合理的

4.9.1. 必須謹慎對待這些演算法對日常生活的影響

4.9.2. 絕大多數演算法都有其專長,不善於處理無規律的行為,當意料之外的事情出現時,演算法只能選擇將其忽略,而人類對這類場景卻能表現出非凡的應變能力

4.10. 沒有免費午餐的定理表明,在任何情境下都能做出準確預測的通用性演算法是不存在的

4.10.1. 機器學習的目標不是建立放之四海而皆準的通用模型,而是構建關於特定問題有針對性的解決方案

4.11. 資料本身永遠無法自給自足,它必須與知識相結合

4.11.1. 人類的思維和智慧似乎能更好地應對環境的變化並對全域性進行把控

5. 機器之間的戰爭

5.1. 作為一個物種,人類之所以取得進步,是因為我們積累了知識,並以比最初獲得知識時更有效的方式將知識傳遞了下去

5.2. 作為一個數學家,也是用上大學的幾年時間快速學習了前輩們近幾個世紀發現的數學理論,而不是憑藉一己之力去重新發現所有的數學知識,以此站到學科前沿的

5.3. AlphaGo

5.3.1. 基礎學習階段

5.3.1.1. 透過檢索就可以找到給對手致命一擊的決勝殺招

5.3.1.2. 僅僅使用這個資料庫還是不夠的

5.3.2. 強化學習階段

5.3.2.1. 從長遠來看,它為演算法自我的發展確立了優勢,提供了可能

5.3.2.2. 演算法透過自我對戰、強化學習來提高對弈水平,即與之前的“自己”不間斷地訓練以提高下棋的水平

5.3.2.3. 如果某些有望獲勝的棋招失敗了,演算法就會修改這些棋招的機率

5.3.2.4. 這種強化學習會綜合生成大量的新資料,有助於演算法發現自身可能存在的弱點

5.3.2.4.1. 區域性最優是這種強化學習的弱點之一
5.3.2.4.1.1. “區域性極大值”

5.3.3. 人類的下棋資料將演算法導向了區域性最優,而實際更優或者最優的下法與人類的下法存在一些本質的不同,即人類在事實上“誤導”了AlphaGo

5.3.3.1. 演算法很快就學會了如何重新評估自己的落子,以最大限度地提高再次獲勝的機率

5.3.3.2. 是新對手把演算法“逼下山”,促使它找到了再攀高峰的新方法

5.4. AlphaZero

5.4.1. 由於是通用棋類人工智慧,因此去掉了代表圍棋的英文“Go”

5.4.2. 沒有使用人類的知識,從零開始訓練,所以用“Zero”

5.4.3. 兩者相結合就得到了“AlphaZero”

5.4.4. 它已不再學習人類的棋譜、走法,而是完全依靠自我對弈來迅速地提高棋藝,從而走出人類對圍棋認知的侷限與定式

5.4.4.1. 由“白板”狀態開始“自學成才”是AlphaZero的獨門秘籍

5.4.4.1.1. 白板指所有知識均由感官和經驗而來,即從零開始的學習

5.4.4.2. 它已不再受人類的思維和遊戲方式的限制了

5.4.5. AlphaZero自我訓練的時間僅為3天,完成的自我對弈棋局數量就達到了490萬盤

5.4.5.1. 人類花3000年才能實現的,它卻只用了3天

5.4.5.2. 它打敗了曾書寫歷史的各版本AlphaGo前輩

5.4.5.3. 在對陣曾贏下李世石那一版的AlphaGo時,AlphaZero取得了100:0的壓倒性戰績

5.4.5.4. 經過40天的訓練之後,它就所向披靡了

5.4.6. 它甚至能夠在8小時內學會如何下國際象棋和日本將棋,水平甚至超過了市面上兩個最好的國際象棋程式

5.5. 如果能夠實現“白板”學習,就相當於擁有一個可以從圍棋移植到其他任何領域的橋樑

5.5.1. 這種演算法是通用的,它會將你從所在領域的細節中解放出來,它普遍適合於任何領域

5.5.2. AlphaGo並不是要打敗人類,而是要發現做科學研究意味著什麼,讓程式能透過自學最終學習到哪些知識

5.5.3. 首先解決智力問題,然後用它來解決其他問題

相關文章