讀AI新生:破解人機共存密碼筆記15輔助博弈

躺柒發表於2024-06-29

1. 輔助博弈

1.1. assistance game

1.2. 逆強化學習如今已經是構建有效的人工智慧系統的重要工具,但它做了一些簡化的假設

1.2.1. 機器人一旦透過觀察人類學會了獎勵函式,它就會採用獎勵函式,這樣它就可以執行相同的任務

1.2.1.1. 解決這個問題很容易,我們只需確保機器人將偏好與人類聯絡起來,而不是與自身聯絡起來

1.2.2. 機器人正在觀察一個人類解決單智慧體決策問題

1.2.2.1. 機器人不知道人類有什麼偏好,但它無論如何都想滿足他們

1.3. “回形針”博弈

1.3.1. 在這個遊戲中,人類哈里特有一種動機來向機器人羅比“傳送”一些她的偏好資訊

1.3.2. 羅比能夠解讀這個訊號,因為它能玩這個遊戲,由此它能理解哈里特有什麼樣的偏好,以便讓她發出那樣的訊號

1.4. 關機博弈

1.4.1. 工具性目標通常可以用作幾乎任何原始目標的子目標

1.4.2. 自我保護是一個工具性目標,因為很少有原始目標在死後能更好地實現

1.4.2.1. 這導致了關機問題:具有固定目標的機器將不允許自己被關機,並有動機禁用自己的關機按鈕

1.4.3. 事實證明,目標的不確定性對於確保我們能夠關閉機器至關重要,即便機器比我們更智慧

1.4.3.1. 它知道自己不想做錯事,但它不知道做錯事意味著什麼

1.4.4. 只要羅比不能完全確定自己將要做的事情就是哈里特自己會做的事,它就會更願意被哈里特關閉

1.4.4.1. 哈里特的決定為羅比提供了資訊,而資訊對於改進羅比的決定總是有用的

1.4.4.2. 如果羅比對哈里特的決定有把握,那麼她的決定就不會提供新的資訊,所以羅比沒有動機讓她做決定

1.4.5. 允許有人為錯誤發生的可能性

1.4.5.1. 即使羅比提議的行動是合理的,哈里特有時也可能會關掉羅比

1.4.5.2. 即使羅比提議的行動並不可取,哈里特有時也會讓羅比繼續

1.4.6. 博弈的解決方案表明,羅比不太傾向於聽從一個有時違背自己最大利益的、非理性的哈里特

1.4.6.1. 她的行為越隨意,羅比在服從她之前就越不確定她的偏好

1.5. 有益的、順從的行為和機器對人類偏好的不確定性之間的重要聯絡,會經受住這些細化和複雜化的考驗

1.6. 隨著羅比對哈里特的偏好越來越確定,它將和那些有固定目標的糟糕的舊人工智慧系統越來越像:它不會徵求許可,也不會讓哈里特選擇關閉它,而且它的目標不正確

1.7. 永遠不要預先排除世界上可能成為哈里特偏好的一部分的屬性

1.7.1. 當羅比根據已知的屬性無法解釋哈里特的決定時,羅比可以推斷,有一個或多個先前未知的屬性(例如天空的顏色)可能在起作用,而且它可以試著找出那些屬性可能是什麼

2. 禁例與漏洞原則

2.1. 保有人類目標的不確定性,或許並不是說服機器人在拿咖啡時不要禁用關機按鈕的唯一方法

2.2. 以一種萬無一失的方式編寫這樣的禁例就像試圖編寫無漏洞的稅法,這是我們幾千年來一直在嘗試卻一直失敗的事情

2.2.1. 防止有人避稅的最佳解決方案是確保相關實體都願意納稅

2.3. 漏洞原理

2.3.1. 如果一臺足夠智慧的機器有動機創造某種條件,那麼一般而言,人類無法僅憑寫禁例來限制它的行為,阻止它這樣做,或是阻止它做一些等效的事情

2.3.1.1. 在人工智慧系統可能出現問題的情況下,最好的解決方案是確保它願意服從人類

3. 要求和指示

3.1. 指令不是不惜一切代價都要實現的目標

3.1.1. 這是一種傳達哈里特偏好資訊的方式,目的是誘導羅比進行某些行為

3.2. 機器永遠無法確定人類的偏好

3.2.1. 儘管存在這種不確定性,它們仍然可以發揮作用

3.3. 語用學是語言學的一個分支,它研究的正是這種延伸的意義概念

4. 主動嗑電

4.1. 多巴胺的作用在20世紀50年代末被發現,但早在那之前,人們就知道對老鼠大腦直接進行電刺激可以產生一種類似獎勵的反應

4.2. AlphaGo得到獲勝的+1獎勵的唯一方法是贏得它正在玩的模擬圍棋遊戲

4.2.1. AlphaGo唯一的動作就是將一枚棋子放在一個空的交叉點上,這些動作隻影響圍棋棋盤,而不影響其他任何東西,因為AlphaGo的模型中沒有其他東西

4.2.2. AlphaGo在訓練期間的生活一定相當令人沮喪:它做得越好,它的對手就做得越好,因為它的對手幾乎就是它自己的翻版

4.3. 人們擔心的是像AlphaGo這樣的強化學習系統可能學會作弊,而不是掌握其預期的任務

4.3.1. 當獎勵訊號來自“宇宙之外”,並由人工智慧系統永遠無法修改的某個過程生成時,這個過程就能正常工作

4.3.2. 如果獎勵生成過程(主體是人類)和人工智慧系統處於同一個“宇宙”中,這個過程就失敗了

4.4. 如何才能避免這種自欺行為?

4.4.1. 因為它混淆了兩個不同的東西:獎勵訊號和實際獎勵

4.4.2. 應該被區分對待,就像它們在輔助博弈中一樣:獎勵訊號提供關於實際獎勵積累的資訊,該資訊才是要被最大化的東西

4.4.3. 學習系統是在天堂積累積分,而獎勵訊號充其量只是提供積分的一種記錄

4.4.3.1. 接管獎勵訊號機制的控制權只會丟失資訊

4.4.4. 一個被設計成能夠區分二者區別的理性學習者,有動力去避免任何型別的“主動嗑電”

5. 遞迴式自我完善

5.1. 機器在設計機器方面會強於人類

5.2. AlphaGo是一個不完美的訓練過程的結果,即它用自我對弈進行強化學習,而獲勝就是獎勵

5.2.1. AlphaGo並不能保證逢局必勝

5.2.2. 事實上,它幾乎總是輸給AlphaZero

5.2.3. 當AlphaGo發現無論它選擇什麼著法,對手都有獲勝的策略時,那麼AlphaGo會或多或少地隨機選擇著法

6. 不同的人

6.1. 人類不是單一的、理性的實體,而是由多得不計其數的、令人討厭的、嫉妒驅動的、非理性的、不一致的、不穩定的、計算能力有限的、複雜的、不斷進化的、異質的實體組成的

6.1.1. 不同的文化,甚至不同的個人,有著完全不同的價值體系

6.2. 在人工智慧中,我們需要加入心理學、經濟學、政治理論和道德哲學的思想

6.2.1. 需要將這些思想熔化、塑形和錘鍊成一個足夠強大的結構,以抵禦日益智慧的人工智慧系統給它帶來的巨大壓力

6.3. 我們不希望機器擁有自己正確的價值體系,我們只是想讓它預測其他人的偏好

6.4. 關於機器難以滿足人類不同偏好的困惑可能來自一種錯誤的想法,即機器採用的是它學習到的偏好

6.4.1. 它只需要學會預測素食者的飲食偏好

6.4.2. 根據第一原則,它會避免為這戶家庭烹飪肉類

6.4.3. 機器人也會了解鄰居“肉食狂人”的飲食偏好,而且,如果在主人同意的情況下,週末鄰居藉機器人幫忙舉辦晚宴,它會很樂意為他們做肉食吃

6.4.4. 除了幫助人類實現他們的偏好外,機器人並沒有自己的一套偏好

6.5. 原則上,一臺機器要學習80億個偏好模型,即地球上每個人的偏好

6.5.1. 機器很容易互相分享它們學到的東西

6.5.2. 人類的偏好結構有很多共同點,所以機器通常不會從頭開始學習每個模型

6.5.3. 機器人帶著相當廣泛的先驗信念從盒子裡走出來

6.5.3.1. 它不需要像以前從未見過人類一樣開始瞭解特殊的人類

6.5.3.2. 相同的論點適用於其他各種各樣的個人特徵,這些特徵在某種程度上可以預測個人偏好結構的各個方面

7. 效益主義

7.1. 威廉·斯坦利·傑文斯

7.1.1. 19世紀英國邏輯學家和經濟學家

7.1.2. William Stanley Jevons

7.1.3. 邏輯鋼琴”的機械計算機的發明者

7.1.4. 在1871年提出,人際效用是不可比較的

7.2. 肯尼斯·阿羅

7.2.1. 1972年諾貝爾獎得主、美國經濟學家

7.2.2. Kenneth Arrow

7.2.3. 人際效用比較沒有任何意義,事實上,就個人效用的可衡量性而言,對幸福感做比較沒有意義

7.3. 羅伯特·諾齊克

7.3.1. 美國哲學家

7.3.2. Robert Nozick

7.3.3. 1974年,即使可以對效用進行人際比較,最大化效用的總和仍然不是一個好主意

7.3.3.1. 這會與“效用怪獸”(一個快樂和痛苦的體驗比普通人強烈許多倍的人)相沖突

7.4. 問題在於我們如何衡量結果的可取性

7.5. 如果不同的實體有不同的效用尺度的想法已經建立在我們的思維方式中,那麼不同的人有不同的尺度也是完全可能的

7.6. 機器可以從寬泛的關於人類偏好尺度的先驗信念開始,透過長時間的觀察來了解更多關於個體尺度的資訊,這或許可以將自然觀察與神經科學研究的發現聯絡起來

7.7. 在決策中使用適當的道德理論具有不確定性

7.7.1. 一種解決方案是為每種道德理論分配一定的機率,並使用“預期道德價值”做決策

8. 利他主義

8.1. 用現代經濟學的說法,對他人的關心通常被歸入利他主義的範疇

8.2. 一些經濟學家把利他主義視為另一種形式的自私,旨在為給予者提供“溫情”

8.3. 對自己內在幸福的偏好

8.3.1. 內在幸福指的是一個人自身的生活品質

8.3.2. 擁有住所、吃得飽、穿得暖、安全等,這些生活品質本身就是令人嚮往的,而不是一個人參考了別人的生活才想要的

8.4. 對他人幸福的偏好

8.5. 消極利他主義行為比人們想象的要普遍得多

8.6. 美國社會學家索爾斯坦·凡勃倫(Thorstein Veblen)在1899年出版的著作《有閒階級論》

8.7. 個人在群體中的身份和地位以及該群體相對於其他群體的整體地位是人類自尊的重要組成部分

8.8. 設計得當的機器不會像它們觀察的人那樣行事,即便這些機器正在學習虐待狂的偏好

8.8.1. 事實上,如果我們人類發現自己每天都處於與純粹利他主義實體打交道的陌生環境中,我們就可能會學習成為更好的人,變得更無私,也更少受到驕傲和嫉妒的驅使

相關文章