當今最先進的人工智慧模型存在許多缺陷,但幾十年後,它們將被公認為通用人工智慧的第一個真例項子。
什麼是通用智慧?
早期的人工智慧系統表現出人工的狹義智慧,專注於單一任務,有時執行任務的能力接近或超過人類水平。
- 20 世紀 70 年代,史丹佛大學特德-肖特利夫(Ted Shortliffe)開發的程式 MYCIN 只能診斷細菌感染並提出治療建議。
- SYSTRAN 只做機器翻譯。
- IBM 的 "深藍 "只能下國際象棋。
後來,經過監督學習訓練的深度神經網路模型,如 AlexNet 和 AlphaGo,成功地承擔了機器感知和判斷方面的許多工,而這些任務長期以來一直困擾著早期的啟發式、基於規則或基於知識的系統。
最近,我們看到了一些前沿模型,它們無需對每項任務進行明確的訓練,就能完成各種各樣的任務。這些模型在五個重要方面實現了人工通用智慧:
- 主題:前沿模型是在數百 GB 的文字上進行訓練的,這些文字來自各種網際網路資源,涵蓋了任何線上寫作的主題。有些模型還在大量不同的音訊、影片和其他媒體集合上進行訓練。
- 任務:這些模型可以執行各種任務,包括回答問題、生成故事、總結、轉錄語音、翻譯語言、解釋、決策、提供客戶支援、呼叫其他服務以採取行動,以及組合文字和影像。
- 模態:最流行的模式是對影像和文字進行處理,但有些系統也處理音訊和影片,有些還與機器人感測器和執行器相連。透過使用特定模態標記器或處理原始資料流,前沿模型原則上可以處理任何已知的感官或運動模態。
- 語言:在大多數系統的訓練資料中,英語所佔比例過高,但大型模型可以用數十種語言進行對話,並在它們之間進行翻譯,甚至對於訓練資料中沒有翻譯示例的語言對也是如此。如果訓練資料中包含程式碼,甚至可以支援自然語言和計算機語言之間越來越有效的 "翻譯"(即一般程式設計和逆向工程)。
- 可指導性:這些模型能夠進行 "情境上下文學習",即根據提示而不是訓練資料進行學習。在 "少量學習 "中,一個新任務會透過幾個輸入/輸出對示例來演示,然後系統會給出新輸入的輸出。在 "零次學習 "中,系統會描述一項新任務,但不會給出任何示例(例如,"用海明威的風格寫一首關於貓的詩 "或"'同義詞'是指字母數目相同但彼此相反的詞對。有哪些'同義詞'?")。
AGI 最重要的部分已經由當前一代先進的人工智慧大語言模型實現。
通用智慧"必須從多維記分卡的角度來考慮,而不是從單一的 "是/否 "命題來考慮。
然而,狹義智慧與廣義智慧之間存在著有意義的不連續性:
- 狹義智慧系統通常只執行單一或預定的任務,併為此接受明確的訓練。即使是多工學習,也只能產生狹義智慧,因為模型仍在工程師設想的任務範圍內執行。事實上,開發狹義人工智慧所涉及的大部分艱苦工程工作都是對特定任務資料集進行整理和標註。
- 相比之下,前沿語言模型可以勝任幾乎所有人類可以完成的資訊任務,可以使用自然語言提出問題和回答問題,並且具有可量化的效能。
對於通用人工智慧來說,語境上下文學習能力是一項特別有意義的元任務。上下文學習將任務範圍從訓練語料中觀察到的任何事物擴充套件到可以描述的任何事物,這是一個很大的提升。
通用人工智慧模型可以執行設計者從未設想過的任務。
那麼為什麼不願承認 AGI?
根據這兩個詞的日常含義,前沿模型已經達到了相當高的通用智慧水平。然而,在我們看來,大多數評論者都不願意這麼說,主要有四個原因:
- 對 AGI 的度量持健康的懷疑態度
- 對替代性人工智慧理論或技術的意識形態承諾
- 執著於人類(或生物)的特殊性
- 對人工智慧經濟影響的擔憂
衡量標準
1、關於 AGI 的門檻在哪裡,存在著很大的分歧。
穆斯塔法-蘇萊曼(Mustafa Suleyman)建議改用 "人工智慧能力"(Artificial Capable Intelligence)一詞,他提議用 "現代圖靈測試 "來衡量:在網上快速賺取一百萬美元的能力(初始投資 10 萬美元)。能夠直接創造財富的人工智慧系統肯定會對世界產生影響,不過將 "有能力 "等同於 "資本主義 "似乎值得懷疑。
我們有充分的理由對某些指標持懷疑態度。當人類透過一場精心設計的法律、商業或醫學考試時,我們假定人類不僅能勝任考試中的具體問題,還能勝任一系列相關問題和任務,更不用說人類普遍具備的廣泛能力了。但是,在訓練前沿模型透過此類考試時,訓練往往是狹隘地針對考試中的具體問題型別進行的。
今天的前沿模型當然不完全有資格成為律師或醫生,儘管他們可以透過這些資格考試。古德哈特定律 指出"當一項措施成為目標時,它就不再是一項好的措施"。
我們需要更好的測試,而且有很多工作正在進行中,例如史丹佛大學的測試套件 HELM(語言模型整體評估)。
2、同樣重要的是,不要將語言流暢與智慧混為一談。
前幾代聊天機器人,如 Mitsuku(現名 Kuki),偶爾會突然改變主題,重複一段連貫的文字,從而騙過人類評委。目前的前沿模型會即時生成回覆,而不是依賴預製文字,而且它們更善於緊扣主題。但它們仍然受益於人類的自然假設,即流暢、符合語法的回答很可能來自一個智慧實體。我們把這稱為 "尚西-加德納效應",取自《身臨其境》中的主人公--尚西之所以被人認真對待,完全是因為他看起來就像一個應該被認真對待的人。
研究人員雷蘭-謝弗(Rylan Schaeffer)、布蘭多-米蘭達(Brando Miranda)和桑米-科耶喬(Sammi Koyejo)指出了常見人工智慧效能指標的另一個問題:它們是非線性的。
考慮一下由一系列五位數算術問題組成的測試:
- 小模型會把所有這些問題都答錯,但隨著模型規模的擴大,會出現一個臨界閾值,過了這個閾值,模型就會把大部分問題都答對。
- 這使得評論家們說,算術技能是足夠大的前沿模型的一個湧現屬性。
但是,
- 如果測試中也包括一至四位數的算術問題,而且部分數字的正確率會得到部分獎勵,
- 那麼我們就會發現,隨著模型規模的擴大,成績會逐漸提高;
其實並不存在一個臨界值。
這一發現使人們對超級智慧能力和特性(可能包括意識)可能會突然神秘地 "出現 "這一觀點產生懷疑,而這正是一些公民和決策者所擔心的。(有時,同樣的說法也被用來 "解釋 "為什麼人類有智慧,而其他類人猿卻沒有;實際上,這種不連續性可能同樣是虛幻的)。
更好的衡量標準顯示,通用智慧是連續的:
"多則多",而不是 "多則不同"。
(不存在“量變到質變”,這句話本身就是人類幻覺)
替代理論
AGI 的前身包括許多相互競爭的智慧理論,其中一些在較窄的領域取得了成功。
電腦科學本身是以具有精確定義的形式語法的程式語言為基礎的,它在一開始就與 "老式人工智慧"(GOFAI)緊密結合在一起。
GOFAI的信條至少可以追溯到17世紀的德國數學家戈特弗裡德-威廉-萊布尼茲(Gottfried Wilhelm Leibniz),艾倫-紐厄爾(Allen Newell)和赫伯特-西蒙(Herbert Simon)的 "物理符號系統假說"(physical symbol system hypothesis)就是其典範。
起初,像英語這樣的自然語言似乎就是這樣的系統,"chair "和 "red "這樣的符號代表著 "chair-ness "和 "red-ness "這樣的概念。
符號系統允許陳述:
- "The chair is red椅子是紅色的"
以及邏輯推理:
- "If the chair is red then the chair is not blue.如果椅子是紅色的,那麼椅子就不是藍色的"。
雖然這看起來很合理,但用這種方法建立起來的系統總是很脆弱,在功能和通用性方面受到限制。
主要問題有兩個:
- 首先,像 "藍色"、"紅色 "和 "椅子 "這樣的術語只有近似的定義,而且隨著使用這些術語執行任務的複雜性增加,這些模糊性的影響也會變得更加嚴重。
- 其次,只有極少數邏輯推論是普遍有效的;一把椅子可能是藍色的,也可能是紅色的。從根本上說,大量的思維並不能簡化為對邏輯命題的操作。
這就是為什麼幾十年來,將計算機程式設計和語言學結合在一起的共同努力未能產生任何類似 AGI 的東西。
宗教信條
然而,一些對符號系統或語言學有著意識形態承諾(教條主義)的研究人員仍然堅持認為:他們的特定理論是通用智慧的必要條件,而神經網路或更廣義的機器學習,在理論上是無法實現通用智慧的--尤其是如果它們純粹是在語言基礎上訓練出來的。
在 ChatGPT 之後,這些批評者的聲音越來越大。
例如,被公認為現代語言學之父的諾姆-喬姆斯基(Noam Chomsky)在談到大型語言模型時寫道:"我們從語言學和知識哲學中瞭解到,它們與人類推理和使用語言的方式大相徑庭。這些差異對這些程式的功能造成了極大的限制,使它們帶有不可磨滅的缺陷"。
認知科學家、當代人工智慧批評家加里-馬庫斯(Gary Marcus)說,前沿模型 "正在學習如何聽起來和看起來像人類。但它們實際上不知道自己在說什麼或做什麼。"
馬庫斯承認神經網路可能是 AGI 解決方案的一部分,但他認為,"要建立一個強大的、知識驅動的人工智慧方法,我們的工具包裡必須有符號操縱機制"。
馬庫斯(以及其他許多人)一直專注於尋找前沿模型能力上的差距,尤其是大型語言模型,並經常聲稱這些差距反映了該方法的根本缺陷。
這些批評者認為,如果沒有明確的符號,僅僅透過學習、"統計 "的方法是無法產生真正的理解的。與此相關的是,他們聲稱,沒有符號概念,就不會有邏輯推理,而 "真正的 "智力需要這種推理。
拋開智慧是否總是依賴符號和邏輯的問題不談,我們有理由質疑神經網路和機器學習的不足,因為神經網路在做任何計算機能做的事情方面都是如此強大。
例如:
- 神經網路可以輕鬆學習離散或符號表示,並在訓練過程中自然出現。
- 先進的神經網路模型可以將複雜的統計技術應用到資料中,使其能夠根據給定資料做出接近最優的預測。這些模型可以學習如何應用這些技術,併為特定問題選擇最佳技術,而無需明確告知。
- 將多個神經網路以正確的方式堆疊在一起,就能產生一個能進行與任何給定計算機程式相同計算的模型。
- 給定任何計算機都能計算的任何函式的輸入和輸出示例,神經網路就能學會近似該函式。(這裡的 "近似 "是指,從理論上講,神經網路的準確度可以超過任何你想達到的水平,例如 99.9% 的正確率)。
以測試證據為準繩
對於每一種批評,我們都應該問一問它是規範性的還是經驗性的。
- 規範性批評會認為"為了被視為 AGI,一個系統不僅要透過這個測試,還必須以這種方式構建。我們會反駁規範性批評,理由是測試本身就足夠了--如果不夠,就應該修改測試。
- 另一方面,經驗主義的批評則認為:"我不認為你能讓人工智慧以這種方式工作--我認為以另一種方式工作會更好"。這樣的批評有助於確定研究方向,但事實勝於雄辯。如果一個系統能透過精心設計的測試,它就會自動戰勝批評。
近年來,針對與 "智力"、"知識"、"常識 "和 "推理 "相關的認知任務設計了大量測試。
- 這些測試包括一些新穎的問題,這些問題不能透過記憶訓練資料來回答,而是需要概括:當我們用學生在學習過程中沒有遇到過的問題來測試他們的理解力或推理能力時,我們要求學生提供同樣的理解力證明。
- 複雜的測驗可以引入新的概念或任務,以測試應試者的認知靈活性:即即時學習和應用新思想的能力。(這就是情境學習的精髓)。
人類(或生物)例外論
只要懷疑論者不為度量標準所動,他們就可能不願意接受任何關於 AGI 的經驗證據。這種不情願可能是出於維護人類精神特殊性的願望,就像人類一直不願接受地球不是宇宙的中心,智人不是 "偉大存在鏈 "的頂峰一樣。誠然,人類有其特殊之處,我們應該為此慶祝,但我們不應將其與一般智慧混為一談。
有時有人會說,任何可以算作 AGI 的東西都必須有意識、有能動性、有主觀感知或感覺。
有一種推論是這樣的:
- 一個簡單的工具,比如螺絲刀,顯然是有用途的(用來擰螺絲),但不能說它本身具有能動性;
- 相反,任何能動性顯然都屬於工具製造者或工具使用者。
- 螺絲刀本身 "只是一個工具"。
同樣的道理也適用於經過訓練來執行特定任務的人工智慧系統,如光學字元識別或語音合成。
不過,具有人工通用智慧的系統則更難被歸類為單純的工具。前沿模型的技能超出了程式設計師或使用者的想象。此外,由於 LLM 可以在語言的提示下執行任意任務,可以用語言生成新的提示,甚至可以自我提示("思維鏈提示"),因此前沿模型是否以及何時具有 "代理權 "的問題需要更仔細的考慮。
考慮一下蘇萊曼的 "人工智慧 "為了在網上賺取一百萬美元可能會採取的許多行動:
- 它可能會研究網路上的流行趨勢,找出亞馬遜市場上的熱門產品和冷門產品;
- 生成一系列可能的產品圖片和藍圖;
- 將其傳送給在阿里巴巴上找到的代發貨製造商;
- 來回傳送電子郵件以完善要求並商定合同;
- 設計賣家的列表;並根據買家反饋不斷更新營銷材料和產品設計。
正如蘇萊曼指出的那樣,前沿模型原則上已經能夠完成所有這些工作,而能夠可靠地規劃和執行整個操作的模型很可能即將出現。這樣的人工智慧看起來不再像螺絲刀。
誠然,人類有其特殊之處,我們應該為此慶祝,但我們不應將其與通用智慧混為一談。
在將關於 AGI應該是什麼和它是什麼的爭論混為一談時,我們違反了大衛休謨的禁令:必須盡最大努力將“是”與“應該”這兩個問題分開。