ARC-AGI 的設計初衷是抵制大語言模型“記憶”技術
我們舉辦本次比賽的目標是:
- 1. 增加從事前沿 AGI 研究的研究人員數量(而不是修補 LLM)。我們需要新的想法,解決方案很可能來自局外人!
- 2. 建立一個流行的、客觀的 AGI 進展衡量標準,公眾可以使用它來了解我們距離 AGI 有多近(或遠)。每個新的 SOTA 分數都將在此處釋出:https://x.com/arcprize
- 3. 擊敗 ARC-AGI 並學習一些關於智慧本質的新知識。
解決 ARC-AGI 任務對於人類(甚至是兒童)來說相當容易,但對於現代大語言模型來說卻是不可能的。
您可以在此處親自嘗試 ARC-AGI 任務:https://arcprize.org/play
- ARC-AGI 包含 400 個公開訓練任務、400 個公開測試任務和 100 個秘密測試任務。每個任務都是新穎的。SOTA 是針對秘密測試集進行測量的,這增加了評估的穩健性。
- 解決 ARC-AGI 任務不需要世界知識,也不需要理解語言。相反,每個謎題都需要一小組“核心知識先驗”(目標導向性、物件性、對稱性、旋轉等)
- 至少,ARC-AGI 的解決方案開啟了一種全新的程式設計正規化,其中程式可以從任意一組先驗中完美而可靠地概括出來。最多,解鎖了通往 AGI 的技術樹。
ARC-AGI
ARC-AGI由François Chollet在其具有影響力的論文“關於智力的測量”中提出,是唯一衡量通用智力的人工智慧評估:
- 可以有效地獲得新技能並解決新穎的開放式問題的系統。
LLM 歷史
讓我們來看看 LLM 的歷史。特別是 Transformer 架構:
- 2014 年:Sutskever 等人(谷歌)發表了Seq2Seq 學習,使用 RNN 和 CNN 實現可變長度的輸入與輸出(英語和西班牙語單詞的長度不一樣。)
- 2016 年:Bahdanau 等人(雅各布大學)推廣了“注意力”的概念,因此係統可以考慮輸入的不同部分來預測輸出(英語形容詞在名詞之前,西班牙語在名詞之後。)
- 2017 年:Vaswani 等人(谷歌)意識到“注意力就是一切”,放棄了 RNN 和 CNN,最佳化了架構,實現了新的規模
- 2018 年:Radford 等人 (OpenAI)在前沿規模的 Transformer 架構之上建立了 GPT-2 ,展示了湧現能力
Transformer 的故事就是科學的故事。不同實驗室和團隊的研究人員發表論文,並在彼此的研究成果基礎上進行改進。
- 雖然有可能一家實驗室就能發現 AGI,但這種可能性極小。
- 如果我們接受這一現狀,那麼全球發現 AGI 的機會已經減少,而且會持續減少。
進步
- “規模就是一切”是不準確的,而這個信念現在正在影響人工智慧監管環境。
- 監管機構錯誤地認為通用人工智慧即將到來,因此正在考慮為其他前沿人工智慧研究設定障礙。
事實是,沒有人知道如何構建通用人工智慧。
我們應該努力激勵新想法,而不是阻礙它們的發展。
透過激勵開源,我們可以提高新想法的速度,增加發現 AGI 的機會,並確保這些新想法得到廣泛傳播,從而在大小人工智慧公司之間建立更加公平的競爭環境。
我們希望 ARC 獎能夠幫助平衡這些趨勢。
ARC 獎
宣佈 ARC 獎,這是一項獎金池超過 1,000,000 美元的競賽,旨在擊敗並開源 ARC-AGI 評估解決方案。
由Mike Knoop和François Chollet主持。由 Infinite Monkey 和 Lab42 出品。
ARC 獎專案標
- 增加從事前沿AGI研究的人員數量。
- 普及 AGI 進展的客觀衡量標準。
- 解決 ARC-AGI 並瞭解有關智慧本質的新知識。
準備好向 AGI 邁出多年來的第一次重大飛躍了嗎?無論您是誰、來自哪裡、從事什麼職業,我們都歡迎您參加本次比賽。新想法可能來自任何地方。也許就是您?
有興趣者點選標題