大模型不只是語言能力,還是對廣闊世界的理解

banq發表於2024-04-11


這篇發人深省的文章基本上是在大聲疾呼:機器人推理的通用智慧AGI基礎模型可能在今天就已經存在。 LLM 不僅僅關乎特定語言的能力,還關乎對廣闊世界的理解。

這篇文章介紹了一種名為“Keypoint Action Tokens”(KAT)的框架,它使得機器人能夠在上下文中進行模仿學習。

這項技術由Norman Di Palo和Edward Johns開發,展示瞭如何利用現成的基於文字的Transformers模型,在沒有額外訓練的情況下,進行少量樣本的視覺模仿學習。這些模型能夠將視覺觀察(輸入)和動作軌跡(輸出)轉換成一系列令牌(tokens),這些令牌可以被文字預訓練的Transformer模型處理和生成。

KAT框架的核心思想是將文字預訓練的Transformer模型重新用作序列到序列的模仿學習機器,透過視覺輸入對映到動作輸出。這種方法的一個關鍵優勢是,儘管這些模型是在語言上訓練的,但它們在將視覺關鍵點觀察轉換成動作軌跡方面表現出色,在資料量較少的情況下,效能與或優於現有的最先進技術。

KAT 並非在語言領域執行,而是利用基於文字的轉換器(Transformers)在視覺和動作領域執行,從而實現高效的一般模仿學習,這為將自然語言模型重新應用於體現任務指明瞭前景廣闊的新途徑。

此外,文章還展示了KAT如何解決一系列日常任務,並且即使在物件配置新穎的情況下也能解決任務。KAT還顯示出對視覺干擾和背景變化具有魯棒性。

網友討論:
1、人類看不到 X 射線。但 X 射線會影響我們的身體。這些 "不可言說 "的概念可能無法用語言來描述,但如果它們的真實性質是長期存在的,那麼它們仍會以同樣的方式 "影響 "我們的行為.....,就像 X 射線一樣。

這樣說來,我們可能沒有一個詞來形容一種感覺......但如果這種感覺產生於一種特定的跳舞方式,或者在一天中的某個時間出現在某個城市,那麼這種感覺就會影響其他詞被使用的機率,或者增加兩個不同的詞相鄰出現的可能性。

LLM的工作方式完全考慮到了這些不可言傳的東西,我們只是....,不能用幾個詞就輕易地解釋它們,我們的大腦會以不同的方式捕捉到同類的東西。

2、語言只涉及表象,因為它是符號交流。語言的大部分意義並不包含在詞語本身,因為意義對上下文語境很敏感,而語境往往不是文字,而是情感或物理。

3、我認為所有這些都指向我們已經有強烈直覺的事情:語言是智慧的基本組成部分,至少是人類智慧的基本組成部分。我甚至會說它是主要組成部分。

4、這種邏輯跳躍太過分了。LLM 不是主動學習者。

  • 它們會在預訓練時學習一次,然後重放最可能符合你的提示模式的演算法來生成新文字。
  • 你可以從中獲得很多有用的資訊,但語言技巧並不是智慧的全部。

語言只包含智慧的一部分,因為它是人類與生俱來就能理解的概念和質點的代表指標。

這既是它作為資訊傳遞者的力量,也是它作為經驗傳遞者的弱點。

  • 許多事情無法透過語言來傳達,或者只能透過字裡行間的含義或未說出口的話來傳達。
  • 很多交流都是非語言的,與直接經驗和物理或情感環境有關。

LLM 是模仿智慧某些方面的絕佳工具,但正如莫拉維克悖論(Moravec's Paradox)所說,有許多在人類看來微不足道的自然現象,卻超出了人類的能力範圍。

未來我們可能會獲得真正的人工智慧,但由於數學方法存在難以解決的缺陷,目前的Transfer架構不太可能實現AGI通用人工智慧。對於科幻迷來說,AGI 和 ASI 都是毫無意義的概念。我們還是先把人工智慧這部分做好吧。

5、樓上4點中提出了很多很好的觀點,但似乎只關注 "作為交流工具 "的語言,而智慧的重點是: "作為思想工具 "的語言。

我們都同意人類語言本身存在缺陷這一事實。LLM 的內部語言在功能上是相同的:一系列相互關聯的已學概念,然後可以用來預測未來。當然,從本質上講,它是完全不同的。

如果把這些權重和連線看作是 "內在思想的語言",那麼從技術上講,將其描述為模型在訓練過程中創造的語言是正確的。與人類語言打交道的部分只有輸入層和輸出層。

相關文章