讀AI新生:破解人機共存密碼筆記13有益機器
躺柒發表於2024-06-27
1. 標準模型
1.1. 我們能控制一個從外太空來的超級智慧實體的機率幾乎為零
1.2. 隨著根據標準模型設計的機器變得更加智慧,以及它們的行動範圍遍及全球,關閉機器這種方法越來越不可行
1.2.1. 機器將會追求它們自己的目標,無論目標錯得多麼離譜
1.2.2. 它們將會抵制關閉它們的企圖
1.2.3. 它們將會獲得有助於實現目標的一切和全部資源
1.2.4. 機器的最佳行為可能包括欺騙人類,讓人類自以為給了機器一個合理的目標,這樣機器就能獲得足夠的時間來實現其實際目標
2. 有益機器的原則
2.1. 那些行動有望實現我們的目標,而不是它們的目標的人工智慧
2.2. 主要用於指導人工智慧研究人員和開發人員如何建立有益的人工智慧系統
2.2.1. 機器的唯一目標是最大限度地實現人類的偏好
2.2.1.1. 這裡的偏好是包羅永珍的,它們涵蓋了在任意遙遠的未來你可能關心的一切
2.2.1.2. 而且它們是你的偏好:機器並不是要識別出或採用一套理想的偏好,而是要理解並儘可能滿足每個人的偏好
2.2.2. 機器最初不確定這些偏好是什麼
2.2.3. 關於人類偏好的最終資訊來源是人類行為
2.3. 不確定性一直是人工智慧的核心問題
2.3.1. 人工智慧系統目標中的不確定性被簡單地忽略了
2.4. 第一原則:純粹的利他主義機器
2.4.1. 即機器的唯一目標是最大限度地實現人類的偏好
2.4.2. 將會有益於人類,而不是蟑螂
2.4.3. 我們無法迴避這種受益人特有的益處
2.4.4. 機器秉承純粹的利他主義,也就是說,它絕對不為自己的幸福甚至自己的存在賦予內在價值
2.4.5. 在機器人中加入任何自我保護的偏好,都會在機器人內部建立一個與人類幸福不完全一致的額外的激勵機制
2.4.6. 問題
2.4.6.1. 人類是否真的擁有有意義的或穩定的偏好
2.4.6.1.1. “偏好”是一種理想化的概念,在許多方面都與現實不符
2.4.6.2. 鑑於通常不可能確保每個人都得到他們最喜歡的結果,因為我們不可能全都成為宇宙之王,那麼機器應該如何權衡多個人的偏好?
2.4.6.2.1. 人類偏好可以而且確實包括動物福祉,以及人類可以直接從動物生存中受益的方面
2.4.6.2.2. 機器應該關注動物的喜好,除此之外,人類還應該建造比人類更關心動物的機器,這是一個很難維持的立場
2.4.6.2.3. 一個更站得住腳的立場是,人類傾向於做出與我們自身利益相悖的短視決策,這往往會給環境及動物帶來負面影響
2.4.6.2.3.1. 更少做出短視決策的機器將有助於人類採取更環保的政策
2.4.6.2.3.2. 在未來,如果我們對動物的福祉給予比現在更大的權重,可能意味著犧牲一些我們自己固有的福祉,那麼機器也會適應
2.5. 第二原則:謙卑的機器
2.5.1. 機器最初並不確定人類的偏好是什麼
2.5.1.1. 這是創造有益機器的關鍵
2.5.2. 一臺自以為完全理解真正目標的機器會一門心思地追求這個目標
2.5.3. 假設機器對目標的完美理解將其與人類分離開來,那麼人類的所作所為將不再重要,因為機器理解目標並追求目標
2.5.4. 一臺對真實目標感到不確定的機器會表現出一種謙卑
2.5.4.1. 它會順從人類,允許自己被關閉
2.5.4.1.1. 它的理由是,只有當它做錯了什麼,即做了違揹人類偏好的事情的時候,人類才會關掉它
2.5.4.1.2. 如果人類真的關掉了機器,那麼機器就能避免做錯事情,這便是它的意圖
2.5.4.1.2.1. 機器有積極的動機讓自己被關閉
2.5.4.1.3. 它仍然與人類聯絡在一起,人類是一個潛在的資訊來源,可以讓它避免錯誤,做得更好
2.6. 第三原則:學習預測人類偏好
2.6.1. 關於人類偏好的最終資訊來源是人類行為
2.6.1.1. 第一個目的是為“人類偏好”這個詞提供一個明確的基礎
2.6.1.1.1. 根據假設,人類偏好並不存在於機器中,機器也無法直接觀察到它們,但是在機器和人類偏好之間一定存在著某種明確的聯絡
2.6.1.1.2. 如果人類的某種偏好對人類可能做出的任何實際或假設的選擇都沒有任何影響,那麼可能就不必說這種偏好存在了
2.6.1.2. 第二個目的是讓機器變得更有用,因為它能更多地瞭解我們想要的東西
2.6.1.2.1. 如果它對人類偏好一無所知,它對我們就毫無用處
2.6.1.2.2. 人類不是完全理性的
2.6.1.2.2.1. 人類的偏好和人類的選擇之間存在著不完美的差異,如果機器要將人類的選擇解釋為人類偏好的證據,那麼它就必須考慮到這些不完美
3. 樂觀的理由
3.1. 需要擺脫20世紀技術的驅動思想之一:最佳化給定目標的機器
3.1.1. 第一個原因是,我們有強大的經濟動機來開發遵從人類的意願,並逐漸與使用者的偏好和意圖保持一致的人工智慧系統
3.1.1.1. 人工智慧系統的愚蠢和有限的行為範圍使我們免受這些後果的影響,但這種情況將會改變
3.1.1.2. 一個行業參與者可能會因為粗心的設計摧毀整個行業,這為形成以安全為導向的行業聯盟和執行安全標準提供了強大的經濟動機
3.1.1.3. 所有的主要參與者都在公開文獻中發表了它們以安全為導向的研究
3.1.2. 第二個原因是,用於學習人類偏好的原始資料,即人類行為的例子非常豐富
3.1.2.1. 這些資料不僅透過彼此共享著大約數十億人的資料的億萬臺機器的相機、鍵盤和觸控式螢幕以直接觀察的形式出現,而且還以間接的形式出現
3.1.2.2. 人類對書籍、電影、電視和廣播的大量記錄,這些記錄幾乎完全與人們的行為有關
3.1.2.2.1. 即使蘇美爾人和埃及人最早的和最乏味的用銅錠交換大麥的記錄,也讓我們對人類對於不同商品的偏好有了一些瞭解
3.1.2.2.2. 在解釋這種原始資料時會遇到困難,這些原始資料包括政治宣傳、謊言、瘋子的胡言亂語,甚至政治家和總統的宣告,但是機器當然沒有理由把這些都當真
3.1.2.2.3. 機器可以(也應該)將來自其他智慧實體的所有交流解釋為遊戲中的動作,而不是事實陳述
3.1.2.2.3.1. 無論誠實與否,人類都可能被自己的信念所欺騙
3.1.2.3. 第二類間接證據擺在我們面前,這就是我們創造世界的方式
3.1.2.3.1. 地板上鋪著地毯,是因為我們喜歡在柔軟溫暖的表面上行走,我們不喜歡響亮的腳步聲
3.1.2.3.2. 花瓶放在桌子中間而不是邊緣,是因為我們不想讓它們掉下來摔碎等
3.1.2.3.3. 一切非自然安排的事物都為了解居住在這個星球上的奇怪的兩足動物的好惡提供了線索
4. 謹慎的理由
4.1. 一家釋出全自動駕駛汽車的汽車製造商將獲得巨大的市場優勢
4.1.1. 這一優勢將會自我強化,因為製造商能夠更快地蒐集更多資料,以改善系統的效能
4.1.2. 如果另一家公司趕在優步之前推出全自動計程車,優步等叫車公司將會很快破產
4.2. 謹慎和仔細的工程設計似乎遠不如時髦的演示、人才的爭奪和倉促的推廣更重要
4.3. 讓來自公共資助機構的科學家和廣大民眾共同尋找最佳的監管方式,越早越好
4.3.1. 一旦公司的科學家開始主導研究事業,那就太晚了
4.4. 經濟競爭不僅發生在公司之間,還發生在國家之間
4.4.1. 美國、中國、法國、英國和歐盟紛紛宣佈對人工智慧進行數十億美元的國家投資
4.4.2. 高階人工智慧將會大大提高几乎所有領域的生產率和創新率
4.4.2.1. 它的擁有者如果不將其分享出去,就能擊敗一切競爭國家或集團
4.5. 人類級別的人工智慧不是零和博弈,分享它不會產生任何損失
4.5.1. 在沒有首先解決控制問題的情況下,關於誰能成為第一個實現人工智慧的人的競爭,是一個負和遊戲
4.5.1.1. 每個人的回報都是負無窮
4.6. 人工智慧研究人員影響人工智慧全球政策演變的能力有限
4.6.1. 我們可以指出可能帶來經濟和社會利益的應用
4.6.2. 我們可以對可能的監視濫用和武器濫用等發出警告
4.6.3. 我們可以為未來發展的可能路徑及其影響提供路線圖
4.6.4. 能做的最重要的事情就是設計儘可能安全且對人類有益的人工智慧系統