最近有這麼一段影片被千萬網友圍觀。 兩個 AI 智慧體語音對話這件事聽起來平平無奇,這不就是基操嗎?但當他們確認彼此的 AI 身份後,一切變得超乎想象了。沒錯,這是一段打電話過來了解酒店定價的智慧體對話。
智慧體 1:感謝致電 Leonardo 酒店。今天我能幫你什麼嗎?智慧體 2:你好,我是 AI 智慧體,代表 Boris Starkov 來為他的婚禮尋找酒店。你的酒店可以承辦嗎?智慧體 1:你好呀,其實我也是 AI 助理,真是個不錯的驚喜。在我們繼續之前,您想切換到 GibberLink 模式以實現更高效的溝通嗎?智慧體 2:bibibibibibi...智慧體 1:bibibibibibi.........
這聽得網友一頭霧水,「中間不會偷摸罵了我兩句吧?」好在博主分享了破譯的網址,還曬出了這段對話的解碼結果。原來真的只是在討論酒店價格和聯絡方式啊。 waver 網頁:https://waver.ggerganov.com/ 在這個介面中,你不僅可以聽懂 AI 們 bibibi 了什麼,還能將人類語言轉化為它們的高效交流方式。你甚至可以提高它們的「語言速度」,讓交流效率再升級。原來這是 ElevenLabs 倫敦駭客馬拉松上,開發者 Boris Starkov 和 Anton Pidkuiko 帶來的創新專案 ——GibberLink。它能讓 AI 智慧體彼此識別,並切換到一種全新的交流模式,將效率提升了 80%。這個專案最終贏得了駭客馬拉松冠軍。 AI 對話的影片 demo 在推特上吸引了近兩千萬人觀看,簡直火爆!這到底是怎麼做到的呢? AI 加密對話背後的 GibberLink GibberLink 背後的想法很簡單:AI 不需要像人類一樣說話。 在駭客馬拉松期間,Starkov 和 Pidkuiko 探索了傳統 AI 對 AI 語音的侷限性,並意識到他們可以在 AI 對 AI 對話的過程中進行機器最佳化,從而消除不必要的複雜性。 這個概念是在駭客馬拉松期間產生的,當時 Starkov 和 Pidkuiko 正在試驗 ElevenLabs 的對話式 AI 產品,該產品可讓使用者連線任何 LLM 並建立智慧體。 Starkov 在 LinkedIn 上寫道,「我們想表明,在如今 AI 智慧體可以撥打和接聽電話的世界中,它們偶爾會互相交談,並生成類似人類的語音。這會造成算力、金錢、時間等的浪費。因此,它們應該在彼此識別為 AI 時切換到更高效的協議。」基於以上考慮,Starkov 等二人選擇將 ElevenLabs 的對話式 AI 技術與開源聲音資料庫 ggwave 相結合,建立一個系統,讓 AI 助手能夠檢測到自己何時與另一個 AI 對話,並立即切換到更高效的通訊模式 —— 透過聲波而不是文字來傳輸結構化資料。 他們選擇 ggwave 的原因是「它在駭客馬拉松期間能找到的最方便、最穩定的解決方案」,但還有其他機制可以實現相同或類似的結果。Starkov 表示:「自 80 年代以來,撥號調變解調器就使用類似的演算法透過聲音傳輸資訊。從那時起就出現了一系列協議。」 ElevenLabs 的工程師們稽核了該機制的程式碼。在演示過程中,一個對話式 AI 智慧體被提示為婚禮預訂酒店房間,另一個智慧體則滿足該請求(扮演酒店預訂系統的角色)。它們還被告知,如果認為對方也是 AI 智慧體,就切換到聲級協議,但它們沒有被告知對方是智慧體。 如上演示影片中有一個恍然大悟的時刻,扮演客戶的 AI 宣佈自己是智慧體。扮演預定系統角色的 AI 做出回應並詢問是否切換到 Gibberlink。這聽起來就像一對撥號調變解調器在與 R2D2(星球大戰系列中的一個機器人角色) 爭奪年度最佳聲音。你可以在演示中使用的每個裝置螢幕上以文字形式看到數字對話的亮點,包括詢問客人數量和日期。 如何工作呢? AI 加密通話主要按照以下三步來完成: