對話 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

RTE开发者社区發表於2024-12-25

Project Astra 願景之一:「系統不僅能在你說話時做出回應,還能在持續的過程中幫助你。」

近期,Google DeepMind 的 YouTube 頻道採訪了 Google DeepMind 研究主管格雷格·韋恩 (Greg Wayne)。

格雷格·韋恩的研究工作為 DeepMind 的諸多突破性成果做出了重要貢獻,涵蓋強化學習、神經網路架構搜尋以及大型語言模型等領域。

本次訪談深入探討了 Project Astra,這是一個探索未來通用人工智慧助手能力的研究原型,旨在理解使用者周圍的世界。主持人與格雷格·韋恩共同探討了該研究原型背後的靈感、當前的優勢與侷限性,以及未來的潛在應用場景。

我們精選了訪談的部分精彩內容,希望能給大家帶來新的啟發,enjoy~

Project Astra :與 Greg Wayne 一起探索通用 AI 助理

Project Astra:Exploring a Universal AI Assistant with Greg Wayne

主持人: Hannah Fry
受訪者: Greg Wayne,Google DeepMind 研究主管

注:為便於閱讀,本文內容已作精簡,並非完整對話。你可以訪問原文收聽完整版播客。

建立在 Gemini 基礎上,但又超越 Gemini 的 AI 助理

Hannah Fry: 歡迎回到 Google DeepMind The Podcast 。今天我們要介紹的是 Project Astra,一個正在突破通用 AI 助理界限的研究原型。Greg,歡迎回來。

Greg Wayne: 你好,Hannah。

Hannah Fry: 我們從頭開始吧。什麼是 Project Astra?

Greg Wayne: Project Astra 是一個旨在構建一個 擁有眼睛、耳朵和聲音, 能夠與你共處的 AI 助手的專案。它能伴隨你到任何地方, 透過智慧眼鏡、手機或電腦, 觀察你正在做的事情,並與你進行交流。

Hannah Fry: 就像一個坐在你肩膀上的小助手?

Greg Wayne: 是的,就像一隻棲息在你肩膀上的鸚鵡,與你一起觀察世界,並和你談論它。

Hannah Fry: 只是比你更聰明。

Greg Wayne: 在某些方面是的。

Hannah Fry: 這與 Google Assistant 或 Gemini 有所不同。

Greg Wayne: 是的。舊版本的 Google Assistant 更像是一個用於控制你家或資訊的系統。而 Project Astra 則能與你一起談論世界。它建立在 Gemini 的基礎上,Gemini 是其背後的智慧核心,它既與 Gemini 協同工作,又可能 幫助塑造 Gemini,同時也受到 Gemini 的塑造。

Hannah Fry: Project Astra 仍然是一個研究原型,為什麼現在要 demo 它?

Greg Wayne: 讓公眾參與這個過程是好事。人們應該瞭解實驗室裡正在開發什麼,並提供反饋。這是一個共同創造的過程,它不僅僅是在實驗室裡進行的,也是與世界各地的使用者合作進行的。

Hannah Fry: 所以有人在現實世界中嘗試使用它了嗎?

Greg Wayne: 是的,我們有一些值得信賴的測試者,他們是一些早期的採用者。

Hannah Fry: 人們用它來做什麼?

Greg Wayne: 比如獲取時尚建議。Project Astra 就像一個夥伴,可以問它「什麼和這個搭配?我怎樣才能看起來更時尚?」

「Astra 可以在後臺執行,並在它認為合適的時候提醒你」

Hannah Fry: 但硬體方面呢?目前,它在你的智慧手機上。最終會出現在眼鏡上嗎?

Greg Wayne: 是的, 智慧眼鏡上的體驗是最親密的, 也最令人驚歎的,因為你感覺自己得到了增強。但軟體堆疊實際上與裝置無關,它可以執行在手機、電腦或 VR 頭顯上。

Hannah Fry: 對於視力受損或失明的人來說,它也有潛在的好處。

Greg Wayne: 是的,這是我痴迷的事情。這項技術可以在很大程度上覆制一個在世界上幫助他們的同伴。例如,你可以想象幫助那些難以識別情緒和麵部表情的人。也可以用來訓練自己,你可以練習理解面部表情,並讓 Astra 給你反饋。當然還有 記憶力 ,當攝像頭開啟時,它會記住過去 10 分鐘的影像和談論的內容。我們也很興奮的一點是 主動性,它會自己判斷你有什麼需要,然後在你沒有指示的情況下提供幫助。 比如,它可以提醒你一些事情,「別忘了,你回家路上需要買這個。」

Hannah Fry: 所以你不需要主動開啟它和它對話,它可以在後臺執行, 並在它認為合適的時候提醒你。

Greg Wayne: 是的。比如你快要回家的時候,它會說,「別忘了你需要買橙汁,因為你今天早上喝完了。」

Astra 依然面臨「雞尾酒會問題」挑戰

Hannah Fry: 你會經常需要糾正它嗎?你會注意到一些小故障嗎?

Greg Wayne: 是的。有時候它會說它看不見一些它明明能看見的東西。你會用某種方式影響它,說「你能看見」,它就會說,「是的,我能看見。」

Hannah Fry: 所以它容易被鼓勵?

Greg Wayne: 是的。

Hannah Fry: 在哪些環境它會表現得不太好?

Greg Wayne: 在嘈雜的條件下,它很難區分不同的聲音。 它會將其誤認為是使用者的語音。嘈雜的環境會使它感到困惑。

Hannah Fry: 當你說區分不同的聲音時,是指波形本身嗎?

Greg Wayne: 是的。這有一個老問題,叫雞尾酒會問題,技術上被稱為源分離。指的是將一個聲音源與另一個聲音源區分開來。

Hannah Fry: 我猜,這在某種程度上使 Project Astra 如此困難,但也賦予了它潛力。

Greg Wayne: 是的,它應該能夠在更多背景資訊下解決歧義。

Hannah Fry: 不同的語言呢?目前它只支援英語嗎?

Greg Wayne: 它實際上是多語種的,精通大約 20 種語言,你甚至可以在同一對話中切換語言。

Hannah Fry: 這太神奇了。

Greg Wayne: 我對這個系統在語言學習方面的應用感到非常興奮。比如,四處走走,然後問,「那是什麼?」,讓它像我在學校裡那樣教你。

「主動記憶」靈感來自動物

Hannah Fry: 如果你正在和它互動,那麼它的底層到底發生了什麼?有哪些不同的元件?

Greg Wayne: 首先,有一個應用程式,收集影片和音訊。它連線到一個伺服器,伺服器上有視覺編碼器和音訊編碼器。還有專門的音訊系統,負責瞭解你何時停止說話。這些都與大型語言模型 Gemini 相鄰。它們將來自這些感覺編碼器的資訊直接傳送到 Gemini,然後 Gemini 做出回應。 還有一個叫做「智慧體」的東西,它會獲取影片和音訊,呼叫搜尋工具, 比如 Google Lens、Google Search 或 Google Maps,還有一個記憶系統。

Hannah Fry: 我嘗試想象, 我們只是用它來識別一本書,就有計算機視覺、語音識別、大型語言模型、Google Search 在底層支援、還有你做出決策的代理層。 所有這些的回答幾乎沒有延遲。這真是非常複雜的事情。

Greg Wayne: 是的,非常複雜。很少有人能理解輸入模型的資料。而且,為什麼它會產生這樣的結果,可能沒有人真正理解。

Hannah Fry: 讓我們來談談它的歷史。在播客的第一季,你是第一集的嘉賓,當時你從動物王國中汲取靈感來研究智慧。特別是,你向我們介紹了西叢鴉,以此來激發 AI 更復雜的記憶能力。我放一段當時的錄音。

播放 Greg Wayne 之前的錄音 :…… 擁有一個可以訪問的龐大資料庫,儲存你做過和看過的事情,然後用它來指導你之後的有目標的行為——我餓了。我想現在吃一些蟲子。我應該去哪裡找?這是我們想要複製的東西……

Hannah Fry: 你們做到了嗎?

Greg Wayne:(笑)你好,Project Astra。你能幫我找些蟲子嗎?

Hannah Fry: 這聽起來很像你的橙汁例子,不是嗎?

Greg Wayne: 這是一個主動記憶的例子。

影片是「原始通用人工智慧」的連線纖維

Hannah Fry: 你的神經科學背景在多大程度上啟發了 Project Astra?

Greg Wayne: 我們利用神經科學來了解我們何時做得足夠好,可以思考 「記憶的真正含義是什麼?」 . 另一方面,如果我們想要一些與人類相容的東西,也許會朝著一種 更像我們,而不是直接的文字介面的智慧形式發展。 例如,我對 Michael Tomasello 的工作很感興趣,他認為,交流的基本前提是兩個人在同一個地方,從而共同推斷目標,然後進行協作。這正是我們在這項技術中建模的內容。

Hannah Fry: 這個專案的第一個火花來自哪裡?它是什麼時候開始的?

Greg Wayne: DeepMind 的 CEO Demis Hassabis 向公司提出了一個挑戰,讓我們思考什麼是「原始通用人工智慧」。我更傾向於智慧的社會性。我認為我們可以將「原始通用人工智慧」與一個有益的助手聯絡起來,其主要目標是為與之互動的人類帶來好處。當我試圖讓它最終變得非常自然時,我逐漸開始認為 影片是系統最終的連線纖維(connecting tissue)。

Hannah Fry: 在這個過程中,有沒有出現過大的突破?

Greg Wayne: 當時的一個主要發現是,我們意識到了「提示」的概念。 告訴系統它可以透過使用者的攝像頭看到世界,這給了它一種對事物的自我視角。 以前我們不太瞭解是否可以很好地提示多模態系統。

Hannah Fry: 這太有趣了。當提出要建立一個「原始通用人工智慧」時,有人懷疑或不相信這種東西是可能實現的嗎?

Greg Wayne: 是的。事後看來,AI 的發展很奇怪,因為它發展得太快了, 人們對理所當然的看法變化得太快了。 當時的人們對「系統是否真的能夠理解世界」感到懷疑。我們甚至沒有關於不同效能水平系統所需的資料量的基本知識。

Hannah Fry: 那麼,有沒有哪個時候你認為它不可能實現?

Greg Wayne: 沒有。 我一直覺得它有可能實現。 有段時間我可能想放棄。我認為在 Gemini 出現之前有一段緩慢的時期,那段日子很艱難。但我從未動搖過它一定能實現的事實。

Hannah Fry: 我聽說,在測試階段,你們有一個 Project Astra 房間。那裡發生了什麼?

Greg Wayne: 我們在特別的房間裡玩各種各樣的遊戲。那裡有一個完整的酒吧,所以 Astra 可以幫你調酒。還有一個美術館,你可以在螢幕上顯示不同的畫作,然後問一些關於藝術的問題。

Astra 系統的低延遲實現

Hannah Fry: 讓我們更深入地瞭解 Astra 的幕後工作。延遲是一個非常關鍵的事情。你們是如何改進它的?

Greg Wayne: 我們改進了實際的影片流,透過應用程式更快地傳送資訊。我們總是處理影像,當影片進入視覺系統時,它總是儘可能快地執行。然後它與大型語言模型位於同一位置、同一組計算機中,因此它不必跨越國家或大陸進行呼叫。

Hannah Fry: 所以為了實現這種實時的理解,你必須將執行這些模型的計算機硬體物理地放置在一起?

Greg Wayne: 是的,絕對是這樣。我們還有使用原生音訊的想法。以前的系統都有文字識別系統。這個系統是直接接收音訊的,因此它不需要二級系統。使用原生音訊的一個簡單效果是,它可以理解罕見的詞或詞的發音。最後一點是,團隊在「端點檢測」方面做了很多出色的工作, 它能準確地知道你何時停止說話。然後,它會在猜測,這是我將要說的話。當它發現使用者真的已經說完話後,它會立即傳送出去。

Hannah Fry: 預先猜測答案會是什麼。

Greg Wayne: 是的。這很難。 我們的系統必須使用一些「語義理解」,因為它也對上下文和聲音有一定的理解。

Hannah Fry: 你認為 Project Astra 是否能夠推理?

Greg Wayne: 是的。它 主要是透過神經網路內部結構進行推理,以一種無法觀察到的、非常複雜的方式。然後是它所產生的對話。它有時透過對話進行推理。

記憶機制與隱私保護

Hannah Fry: 現在,我想多和你談談記憶。它可以記住過去 10 分鐘內發生的事情,對嗎?

Greg Wayne: 是的, 大概是 10 分鐘。 極限在於晶片上的記憶體。

Hannah Fry: 所以目前,它實際上就像一個錄影機,記錄了過去 10 分鐘發生的一切。

Greg Wayne: 是的。還有一個二級系統,當你關閉系統時,它會提取對話,總結並提取相關的事實。

Hannah Fry: 它是如何決定哪些資訊足夠重要,值得記住?

Greg Wayne: 它有 啟發式方法。 如果你要求它記住,它肯定會記住。否則,它會試圖說,「使用者是否表達了任何有趣的、或與使用者已經表達過的偏好不同的偏好?」

Hannah Fry: 讓我們來談談隱私問題。你們如何緩解這些隱私問題?

Greg Wayne: 主要標準之一是同意。 使用者可以訪問他們之前記錄的資料,可以刪除或檢視儲存的內容。

Hannah Fry: 使用者的確最終會控制它瞭解自己的資訊。

Greg Wayne: 是的。

Hannah Fry: DeepMind 的倫理學家 Iason Gabriel 的工作在多大程度上影響了你們的 Astra?

Greg Wayne: 我們和 Iason 談了很多。我們也和他的團隊一起做了很多工作。他們一直在調查模型和整個代理,探索它在不同情況下的表現。我們還有一層安全過濾器,防止使用者受到傷害。

未來重點:主動影片互動和全雙工對話

Hannah Fry: 那麼,你們接下來的優先事項是什麼?

Greg Wayne: 我對主動影片工作非常感興趣。也就是說, 系統不僅能在你說話時做出回應,還能在持續的過程中幫助你。 例如,這屬於為盲人提供視覺直譯器的問題。當你四處走動時,因為你看不到,它會說,「小心那邊的桌子」。它可以持續地引導你。我們還在音訊輸出方面做了很多工作,所謂的「全雙工」。它可以同時處理聽和說,這可能會有點煩人。 它可能會打斷你。但它也更像自然的對話。 當你說話時,我可能會說,「嗯嗯」、「嗯嗯」,它在同時聽和說。這是用來確認的語言的一部分。正如你所說,我們還會在推理、更深層次的記憶、反思等方面投入更多精力。當它呼叫工具進行更深入的查詢和研究時,是的,還有太多事情需要做得更好。

Hannah Fry: 非常感謝你參與我們的節目,Greg。

Greg Wayne: 謝謝你,Hannah。

Hannah Fry: 我們對 AI 的期望變化之快真是奇怪。我們現在有了這個多模態代理的雛形。它能看、能聽,能記憶、有上下文、能推理、能進行多語言實時對話。當然,它不是 AGI。但我們已經比兩年前討論的系統有了顯著的飛躍。

原影片:https://www.youtube.com/watch?v=ctWfv4WUp2I
編譯:施蘇娜、傅豐元

更多 Voice Agent 學習筆記:

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

相關文章