接入語音盒子,廣東成人玩偶公司走紅;AI 語音訪談員 Chikka 登頂 PH 日榜:AI 語音收集反饋,即時生成洞察報告丨日報

RTE开发者社区發表於2025-03-03

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 技術 」、「有亮點的 產品 」、「有思考的 文章 」、「有態度的 觀點 」、「有看點的 活動 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@qqq、@ 鮑勃

01 有話題的技術

1、不說人話,AI 有自己的通訊協議

隨著 AI 技術的普及,越來越多的 AI 開始執行撥打和接聽電話的任務。在這種情況下,AI 之間不可避免地需要透過電話進行交流。然而,傳統的人類語言通訊方式在 AI 之間的對話中存在明顯缺陷,比如時間效率低下、語音生成的計算成本高昂,且容易出錯。

針對這些問題,由軟體工程師 Boris Starkov 和 Anton Pidkuiko 開發的 Gibberlink 提出了一種新思路——讓 AI 從語音級別轉移到聲音級別協議來相互通訊。 雖然人類可以聽到兩個 AI 開始使用人類聽不懂的「語言」進行溝通,但沒有專門裝置或軟體則無法理解其中包含的資訊。

Gibberlink 的核心工作原理建立在一套智慧識別機制上。具體來說,當 AI 與人類交談時,它會堅持使用常規語音。當檢測到另一方也是 AI 代理時,會主動建議切換到聲音級協議,如果對方接受這一建議,雙方將切換到基於 GGWave 庫的聲音級協議進行通訊。

整個協議設計有標準化訊息格式和嚴格的資料交換結構,以最大程度降低誤解風險和潛在安全漏洞。Gibberlink 帶來的好處有很多,比如透過避免語音生成環節,Gibberlink 減少了 90% 以上的計算成本,這對於大規模 AI 部署具有重要意義,以及相同資訊的傳遞時間最多可縮短 80%,大大加快 AI 間的互動速度。( @APPSO)

2、杭州國資押注大模型,智譜 AI 獲超 10 億元戰略融資

國內大模型獨角獸智譜 AI 近日完成逾 10 億元人民幣戰略融資,本輪投資方包括杭州城投產業基金、上城資本等地方國資平臺。新募資金將重點投向 GLM 大模型技術研發體系構建及開發者生態建設。天眼查 App 顯示,智譜 AI 已在杭州成立子公司,以 4.5 億元註冊資本劍指區域數字經濟建設。

作為清華系 AI 企業的代表,智譜 AI 的技術演進軌跡勾勒出國產大模型的突圍路徑。從 2021 年釋出百億引數模型 GLM-10B,到 2024 年推出對標 GPT-4 的 GLM-4 系列,其自主研發的 GLM 架構已形成涵蓋基座模型、多模態、Agent 等完整技術矩陣。值得關注的是,GLM 預訓練架構實現了從理論到工具鏈的全棧自主創新,成功相容 40 餘種國產 GPU 晶片,打通了信創替代的關鍵堵點。

從去年開始,智譜 AI 的商業化程序駛入快車道。從一開始,他們就圍繞大模型能力去落地,構建了多種服務模式,如 MaaS(軟體即服務)、私有化部署、智慧體平臺等,形成了包含百萬規模開發者的模型服務新生態。

除了主要面向企業,與消費電子廠商合作,將 Agent 落地於硬體也是智譜 AI 重要的商業化方向之一。今年 1 月,OpenAI 先後推出 Agent Operator、Deep Research , 引發行業震動,Grok 3、Claude 3.7 Sonnet 迅速跟進,押注 Agent 的智譜 AI 已經率先提出了 Phone Use 概念,推出了能模擬使用者進行計算機、手機等跨應用自主操作的 AutoGLM 和 GLM-PC,智譜和三星也基於 Agentic GLM 展開合作,將 Agent 體驗帶到三星最新手機 Galaxy S25 系列上,領先國內外大模型。據悉,智譜節後不到一個月收入超過 1 億,API 平臺付費增長超過 30%。(@ 機器之心)

02 有亮點的產品

1、Sesame 釋出超真實的 AI 語音產品:幾乎沒有 AI 味

Sesame 的核心目標是創造一種數字伴侶,不僅僅是處理請求的工具,而是能夠進行真實對話的夥伴。這些數字伴侶希望透過與使用者的互動,逐步建立信任感和自信心,進而讓使用者在日常生活中體驗到更為豐富和深刻的交流。為此,Sesame 團隊專注於幾個關鍵的組成部分,包括情感智慧、對話動態、上下文意識和一致的人格特徵。

情感智慧是讓語音助手能夠理解和回應使用者情感狀態的能力。它不僅僅停留在語音命令的理解上,而是要能夠感知語音中的情感變化,從而做出更適當的反饋。其次,對話動態則強調語音助手在交流過程中應具備的自然節奏,包括適時的停頓、恰當的語氣強調和打斷等,使得對話更加流暢和自然。

另外,上下文意識也是至關重要的。它要求語音助手根據對話的背景和歷史,靈活調整語調和風格,以匹配當前的情境。這種能力能夠使得數字助手在不同的場合下都能顯得恰如其分,進而提高使用者的滿意度。最後,一致的人格特徵則意味著語音助手在各類對話中都應保持相對一致的個性和風格,以增強使用者的信任感。然而,要實現「語音存在」的目標並非易事。Sesame 團隊在個性、記憶、表現力和適當性等多個方面的努力取得了逐步進展。

在技術層面,Sesame 團隊針對傳統文字到語音(TTS)模型的不足,提出了一種稱為「對話語音模型」(CSM)的新方法。這種方法利用轉換器架構,旨在實現更為自然和連貫的語音生成。CSM 不僅處理文字和音訊的多模態學習,還能夠根據對話的歷史來調整輸出,從而解決傳統模型在上下文理解上的短板。(@AIbase 基地)

2、接入語音盒子,廣東中山成人玩偶公司走紅,創始人:十五年來第一次這麼火爆

劉江霞是廣東省中山成人玩偶公司金三玩美(WMdoll)的創始人。這是她度過的最忙碌的 2 月,光是 2 月 26 日上午,她就接待了來自商會、行業協會和機器人公司的客戶。讓這家一度低調的成人玩偶製造商成為熱點的是高科技的加持。

公司搭載大模型的 MetaBox 在去年 12 月投入海外市場,包括美國、德國、日本、韓國等,預計 4 月會在國內上市。在大模型技術面世後,在 Llama、DeepSeek 等開源大模型的賦能下,動態的機器人和靜態的玩偶具備了長期記憶儲存、個性化反饋及生理資料聯動等功能。

「現在大模型反應迅速,回答也比較有趣,帶來的最大變化是情感陪伴,產品具備了理解、分析並回應的能力。」劉江霞說:「我們接入了 Llama 的開源(模型),又在這個基礎上做了一定的調整訓練,接入這個行業特定的一些語料,例如挑逗性聊天、曖昧對話等。」

基於幾種開源 LLM,公司推出了 MetaBox。 Metabox 連線到一個資料中心託管的雲端計算服務,可以處理每個成人玩偶的資訊。搭載到玩偶身上,則表現為玩偶可以用不同性格、聲音、語氣與使用者進行可持續對話,其搭載了 8 種外語,具備連續對話能力。目前 MetaBox 只針對海外使用者開放,由於雲節點伺服器在國外,對話存在幾秒的延遲。

不過,可以開口說話的 AI 玩偶,並不等同於「我的機器人女友」現實版。以金三玩美玩偶為例,目前不具備視覺功能,使用者也無法用語言控制玩偶的面部表情或身體功能,能產生互動的只是嵌在身體裡的語音盒。也就是說,當成人玩偶「安慰」或「稱讚」時,臉部和嘴部不會發生變化,只是單純發出聲響。(@ 介面新聞)

3、Awen:顛覆 Photoshop,基於 AI 語音介面的創意影像生成工具

傳統創意工具功能固然強大,但往往也伴隨著操作複雜的問題。而由 YC 孵化的團隊 Awen 正致力於改變這一現狀。創意人士不再需要埋首於繁瑣複雜的選單選項,只需透過簡單的語音描述便能實現他們的創意願景,例如:「請為我繪製一幅瑞士山湖的風景畫。現在,請將其調整為日落時分。再新增一艘小船。最後,讓畫面動起來。」

Awen 巧妙地運用人工智慧推理技術,透過語音精準理解創意意圖。我們的目標是重新定義創意人士與人工智慧技術的互動模式,力求在專業人士所需的功能性和新手使用者所追求的易用性之間找到完美的平衡點。

Awen 由 Thibault、Pablo 和 Antoine 共同傾力打造。這是一個匯聚了機器學習、軟體工程等領域專家,以及在廣告、時尚、媒體、出版和娛樂等行業擁有豐富創意生產經驗的卓越團隊。(@Awen@Y Combinator)

4、微軟將於 5 月 5 日關閉 Skype

微軟證實將於 5 月 5 日關閉 Skype。現有的 Skype 使用者將遷移到 Teams,部分使用者現在就可以用 Skype 憑證登入 Teams,未來幾天該功能將提供給更多使用者。在 Skype 關閉前,Skype 和 Teams 使用者將能互動聊天或通話。不想遷移到 Teams 的使用者可以匯出 Skype 資料,包括聯絡人、通話記錄和聊天記錄。與 Skype 同時代的訊息服務 ICQ 則在去年 6 月關閉了。(@Slashdot)

5、AI 語音訪談員 Chikka.ai:AI 語音對話收集反饋,即時生成洞察報告

Chikka.ai,一個 AI 語音訪談員,旨在幫助使用者以前所未有的方式深入瞭解使用者反饋。作為一名連續創業者,Vill Yu 在 2015 年就建立了第一個 AI 代理 SaaS 產品,並且已經投身於 AI+SaaS 領域十年,在這個過程中從成功和失敗中汲取經驗。

他發現收集來自客戶、員工和朋友的寶貴反饋往往是一個複雜且耗時的工作。因此他們構建了 Chikka.ai ——為了簡化訪談流程,並讓使用者輕鬆獲得有效反饋。

Chikka.ai 是什麼 Chikka.ai 不僅僅是一個平臺,更是使用者的專屬 AI 語音訪談員,能夠與受訪者動態互動,促進自然對話,只需五分鐘就能捕捉到真實的反饋。

Chikka.ai 功能

  • 建立第一次訪談:使用 AI 生成的模板或自定義使用者的問題以滿足使用者的需要。

  • Ava 引領:在任意數字平臺(電子郵件、WhatsApp、Instagram 等)分享使用者的訪談連結,並觀看 Ava 即可與受訪者進行無縫對話。

  • 瞬間解鎖反饋:獲取實時轉錄、分析和可執行的推薦,助力決策。

Chikka.ai 亮點

  • 使用 AI 語音訪談員能夠深入瞭解使用者需求。

  • 實時獲取可操作建議,節省使用者的時間和精力。

  • 幾分鐘內建立動態訪談——無需培訓。(@Vill Yu@Product Hunt)

03 有態度的觀點

1、微軟 CEO:我們過度炒作了 AGI

近日,微軟 CEO 薩提亞·納德拉在一次播客採訪中, 就最近問世的微軟 Majorana 1 量子晶片以及公司的未來技術發展方向 ,分享了一系列觀點。納德拉表示,量子計算對探索密集型任務具有獨特優勢,它只需少量資料就能產出豐富成果。而 「如果將量子技術與人工智慧結合,用量子計算來生成或合成資料,就能訓練出更優秀的 AI 模型,兩者應該結合使用。」

他認為超大規模市場不會出現贏家通吃的局面,因為企業級買家足夠聰明,會需要多個供應商。從微軟進入雲端計算市場的經驗看,即使亞馬遜已佔據市場優勢,他們仍然成功打入了這個領域。在談到備受關注的 AGI 話題時,納德拉表示: 「我認為我們現在對 AGI 的概念過度炒作了。」 他認為衡量 AGI 真正實現的標準——世界經濟能以 10% 的速度快速增長。「如果將 AI 革命類比之前的工業革命,那也應該從生產力進步的角度評判結果。技術發展最大的贏家不會是科技公司,而是使用這些技術和資源突破生產力瓶頸的各行各業。」對於微軟最新推出的 Majorana 1 量子晶片,納德拉解釋道,這是微軟 30 年研究歷程的重大突破。

他將其比作「電晶體時刻」,認為這款晶片將是第一款能容納一百萬量子位元的物理晶片。「這意味著我們現在甚至可以可靠地隱藏量子資訊,測量它,並且可以製造它。」

(@APPSO)

更多 Voice Agent 學習筆記:

多模態 AI 怎麼玩?這裡有 18 個腦洞

AI 重塑宗教體驗,語音 Agent 能否成為突破點?

對話 TalktoApps 創始人:Voice AI 提高了我五倍的生產力,語音輸入是人機互動的未來

2024,語音 AI 元年;2025,Voice Agent 即將爆發丨年度報告發布

對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點

這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢

語音即入口:AI 語音互動如何重塑下一代智慧應用

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

寫在最後:

我們歡迎更多的小夥伴參與 「RTE 開發者日報」 內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章