千萬網友圍觀,兩個語音AI開始加密通話,網友:中間真沒罵我兩句?

机器之心發表於2025-03-02
AI智慧體有自己的交流方式。

最近有這麼一段影片被千萬網友圍觀。

兩個 AI 智慧體語音對話這件事聽起來平平無奇,這不就是基操嗎?但當他們確認彼此的 AI 身份後,一切變得超乎想象了。千萬網友圍觀,兩個語音AI開始加密通話,網友:中間真沒罵我兩句?
沒錯,這是一段打電話過來了解酒店定價的智慧體對話。

智慧體 1:感謝致電 Leonardo 酒店。今天我能幫你什麼嗎?
智慧體 2:你好,我是 AI 智慧體,代表 Boris Starkov 來為他的婚禮尋找酒店。你的酒店可以承辦嗎?
智慧體 1:你好呀,其實我也是 AI 助理,真是個不錯的驚喜。在我們繼續之前,您想切換到 GibberLink 模式以實現更高效的溝通嗎?
智慧體 2:bibibibibibi...
智慧體 1:bibibibibibi...
......

這聽得網友一頭霧水,「中間不會偷摸罵了我兩句吧?」
image.png
好在博主分享了破譯的網址,還曬出了這段對話的解碼結果。原來真的只是在討論酒店價格和聯絡方式啊。
image.png
waver 網頁:https://waver.ggerganov.com/

在這個介面中,你不僅可以聽懂 AI 們 bibibi 了什麼,還能將人類語言轉化為它們的高效交流方式。你甚至可以提高它們的「語言速度」,讓交流效率再升級。千萬網友圍觀,兩個語音AI開始加密通話,網友:中間真沒罵我兩句?
原來這是 ElevenLabs 倫敦駭客馬拉松上,開發者 Boris Starkov 和 Anton Pidkuiko 帶來的創新專案 ——GibberLink。它能讓 AI 智慧體彼此識別,並切換到一種全新的交流模式,將效率提升了 80%。這個專案最終贏得了駭客馬拉松冠軍。
1740883174669.jpg
AI 對話的影片 demo 在推特上吸引了近兩千萬人觀看,簡直火爆!
image.png
這到底是怎麼做到的呢?

AI 加密對話背後的 GibberLink

GibberLink 背後的想法很簡單:AI 不需要像人類一樣說話。

在駭客馬拉松期間,Starkov 和 Pidkuiko 探索了傳統 AI 對 AI 語音的侷限性,並意識到他們可以在 AI 對 AI 對話的過程中進行機器最佳化,從而消除不必要的複雜性。

這個概念是在駭客馬拉松期間產生的,當時 Starkov 和 Pidkuiko 正在試驗 ElevenLabs 的對話式 AI 產品,該產品可讓使用者連線任何 LLM 並建立智慧體。

Starkov 在 LinkedIn 上寫道,「我們想表明,在如今 AI 智慧體可以撥打和接聽電話的世界中,它們偶爾會互相交談,並生成類似人類的語音。這會造成算力、金錢、時間等的浪費。因此,它們應該在彼此識別為 AI 時切換到更高效的協議。」
image.png
基於以上考慮,Starkov 等二人選擇將 ElevenLabs 的對話式 AI 技術與開源聲音資料庫 ggwave 相結合,建立一個系統,讓 AI 助手能夠檢測到自己何時與另一個 AI 對話,並立即切換到更高效的通訊模式 —— 透過聲波而不是文字來傳輸結構化資料。

他們選擇 ggwave 的原因是「它在駭客馬拉松期間能找到的最方便、最穩定的解決方案」,但還有其他機制可以實現相同或類似的結果。Starkov 表示:「自 80 年代以來,撥號調變解調器就使用類似的演算法透過聲音傳輸資訊。從那時起就出現了一系列協議。」

ElevenLabs 的工程師們稽核了該機制的程式碼。在演示過程中,一個對話式 AI 智慧體被提示為婚禮預訂酒店房間,另一個智慧體則滿足該請求(扮演酒店預訂系統的角色)。它們還被告知,如果認為對方也是 AI 智慧體,就切換到聲級協議,但它們沒有被告知對方是智慧體。

如上演示影片中有一個恍然大悟的時刻,扮演客戶的 AI 宣佈自己是智慧體。扮演預定系統角色的 AI 做出回應並詢問是否切換到 Gibberlink。這聽起來就像一對撥號調變解調器在與 R2D2(星球大戰系列中的一個機器人角色) 爭奪年度最佳聲音。你可以在演示中使用的每個裝置螢幕上以文字形式看到數字對話的亮點,包括詢問客人數量和日期。

如何工作呢?

AI 加密通話主要按照以下三步來完成:

  • AI 開始正常說話 —— 就像語音助手與人類互動一樣。
  • 識別開始發揮作用 —— 如果 AI 意識到自己正在與另一個 AI 交談,它們都會切換協議。
  • 語言發生變化 —— 得益 ggwave 的調頻系統,AI 智慧體不再使用口頭語言,而是透過調製的聲波傳輸結構化資料。

更具體地說,一對 ElevenLabs 對話式 AI 智慧體開始用人類語言交談。如果滿足正確的條件,這兩個智慧體都使用呼叫函式來觸發 Gibberlink 模式。如果呼叫該工具,ElevenLabs 呼叫將終止,ggwave「聲音資料」協議將接管,但使用相同的 LLM 執行緒。

Starkov 表示,正是 ElevenLabs 提供的工具使這一切成為可能,對話式 AI 系統「允許使用者提示 AI 在某些情況下執行自定義程式碼」,這就帶來了更快、更高效的通訊。

這個專案火到什麼程度呢?當 ggwave 的創造者 Georgi Gerganov 在 X 上釋出相關內容時,AI 和科技社群迅速傳播了那段影片。科技媒體紛紛報導了這件事,有影響力的科技博主們也連連轉發。《福布斯》也發文討論了這個專案相關的安全性問題。

GibberLink 為我們展示了 AI 未來可能的通訊方式,尤其是在我們逐步進入一個虛擬助手和智慧體能夠管理進出電話的時代。試想一下,AI 驅動的客戶服務機器人、智慧助手,甚至自主系統能夠即時在它們專用的模式下進行協作,然後僅僅將簡單的文字報告返回給負責人,這將大大提升我們的辦事效率。

不過,聽不懂它們對話,你會不會擔心呢?

參考連結:
https://deepnewz.com/ai-products/elevenlabs-hackathon-winners-unveil-gibberlink-boosting-ai-voice-agent-80-across-0fbdfd17
https://x.com/ggerganov/status/1894057587441566081
https://github.com/PennyroyalTea/gibberlink
https://github.com/ggerganov/ggwave

相關文章