李飛飛團隊多模態模型統一動作與語言;OpenAI 推出電話服務,讓更多人與 Chatgpt 對話丨 RTE 開發者日報

RTE开发者社区發表於2024-12-19

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。 我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、李飛飛團隊統一動作與語言,新的多模態模型不僅超懂指令,還能讀懂隱含情緒

史丹佛大學李飛飛教授團隊在人工智慧領域取得了突破性進展,提出了一種能夠統一理解和生成人類動作與語言的全新多模態語言模型。這項創新成果不僅技術上極具開創性,也為未來人機互動和動作識別技術的發展帶來了新的可能性。

該團隊認為,要實現對人類動作言語和非言語資訊的統一理解,語言模型至關重要。他們巧妙地將動作轉化為 token,並結合現有的文字和語音 token 化策略,使得任何模態的輸入都能以 token 形式表示。 這個創新方法分為預訓練和後訓練兩個階段:預訓練階段透過身體組合動作對齊和音訊 - 文字對齊來實現不同模態的對齊;後訓練階段則透過指令訓練,使模型能夠遵循各種任務指令。

實驗結果顯示,這種新方法的多模態語言模型在多個指標上都超越了當前最先進的模型,尤其在資料匱乏的情況下,預訓練策略的優勢更加顯著。 值得一提的是,儘管在預訓練階段沒有接觸過語音 - 動作資料,該模型在資料相對較少的全新說話人上依然展現出極強的泛化能力和競爭力。

這項成果標誌著人工智慧在理解和生成人類動作方面邁出了關鍵一步。該模型不僅可以根據語音內容和文字指令生成全身動作,還能精細地控制不同身體部位的動作,並將其自然地組合。

這項技術在遊戲、虛擬現實等領域擁有巨大的應用潛力,並將對未來人機互動技術的發展起到關鍵作用。 隨著這一多模態模型的不斷發展和應用,我們有望迎來更加自然流暢、智慧化的人機互動體驗。(@ 百朋 AI 學堂)

2、Genesis Project 震撼釋出:顛覆性生成式物理引擎,構建 4D 動態真實世界

近日,備受矚目的 Genesis Project 正式釋出,這款全新的生成式物理引擎旨在以最高的真實感模擬整個物理世界,為虛擬領域帶來前所未有的沉浸式體驗。

Genesis Project 最大的亮點在於其卓越的效能。該引擎採用純 Python 開發,模擬速度比現有 GPU 加速引擎(如 Isaac Gym、MJX)快 10-80 倍,甚至比實時快約 43 萬倍。這意味著開發者可以更快速地進行物理模擬,大大縮短開發週期。

此外,Genesis Project 還展現了強大的訓練能力。在單張 RTX4090 顯示卡上,該引擎僅需 26 秒即可完成可轉移到真實世界的機器人運動策略訓練,這無疑將極大提升機器人和物理 AI 領域的開發效率。

Genesis Project 是由 20 多個研究實驗室經過 24 個月的大規模合作研發而成,這充分體現了其強大的技術實力和學術背景。該專案旨在構建一個統一的生成式物理世界模擬框架,該框架可以自動生成各種環境、機器人任務、獎勵函式和互動式 3D 場景,從而推動機器人和物理 AI 領域的全面發展。

Genesis Project 支援模擬各種型別的物理現象,包括剛體、關節體、布料、液體、煙霧、可變形體、薄殼材料、彈性/塑性體以及機器人肌肉等。它還整合了各種先進的物理解算器(如 MPM、SPH、FEM、剛體、PBD 等),確保模擬結果的準確性和真實性。

此外,Genesis Project 還提供 3D 互動式場景生成功能,支援訓練機器人技能,並可應用於超越機器人領域的資料生成,例如角色運動。(@AIbase 基地)

3、蘋果與騰訊、位元組洽談 AI 合作 計劃在中國市場整合本地 AI 模型

據路透社援引三位知情人士的訊息,蘋果公司正在與騰訊和位元組跳動展開談判,探討將這兩家中國公司的人工智慧(AI)模型整合至中國市場銷售的 iPhone 中。這一舉措是蘋果 AI 系統 Apple Intelligence 的一部分,而從本月開始,蘋果已在全球市場的 iPhone 中整合了 ChatGPT 聊天機器人功能。

知情人士透露,蘋果與騰訊和位元組跳動的討論主要涉及利用後兩者的 AI 模型。這一談判目前尚處於早期階段,細節仍未敲定。

值得注意的是,此前有媒體曾報導,蘋果曾與百度洽談合作,希望整合百度的 AI 模型至 iPhone,但由於技術問題導致談判受阻。雙方在是否允許使用 iPhone 使用者資料來訓練 AI 模型上存在分歧,成為合作的主要障礙。(@AIbase 基地)

02 有亮點的產品

1、OpenAI 重磅推出電話服務

北京時間今天凌晨,在 OpenAI 第十場釋出會上 ,重磅推出電話服務。

據官方介紹,即日起,美國使用者可將 ChatGPT 新增到電話通訊錄,然後用智慧手機/座機/老人機撥打 1-800-242-8478,它就能回應你提出的問題,比如景點導覽亦或者語言翻譯等。並且 OpenAI 將向美國使用者提供 15 分鐘的免費通話時間。

直播中,OpenAI 首席產品官 Kevin Weil 表示:「我們的使命是讓通用人工智慧造福全人類,部分目標就是儘可能讓它向更多人開放。今天,我們邁出了下一步,把 ChatGPT 帶到你的電話中。」

與此同時,ChatGPT 也正式「入駐」WhatsApp。屆時,GPT-4o mini 將為 WhatsApp 使用者提供基礎對話服務。雖然無需註冊即可使用,但受限於使用額度,建議你還是轉向 App 或網頁版獲取完整體驗。

OpenAI 表示,正在為 WhatsApp 開發影像分析和網頁搜尋等更多功能,但暫未公佈這些功能的上線時間。(@ APPSO)

2、AI 初創公司 Odyssey 推新工具 Explorer 將文字和影像轉化為逼真 3D 世界

AI 初創公司 Odyssey 正在開發一款名為 Explorer 的工具,該工具利用人工智慧技術,可以將文字或影像轉化為 3D 渲染圖。

該工具的工作原理類似於 DeepMind、World Labs 和以色列初創公司 Decart 最近展示的世界模型,使用者只需輸入如「日本花園,綠意盎然」的描述,Explorer 就能生成一個互動的實時場景。

Odyssey 表示,Explorer 工具特別適合建立逼真的場景,這是因為其背後的 AI 系統是基於公司自定義設計的 360 度揹包相機系統所捕捉的真實世界風景進行訓練的。使用者可以將 Explorer 生成的任何場景匯入到如 Unreal Engine、Blender 和 Adobe After Effects 等創意工具中進行後期編輯。Explorer 採用的是高斯斑點技術,這是一種成熟的體積渲染技術,能夠重建出真實的場景,而這種技術在計算機圖形工具中得到了廣泛支援。

雖然 Explorer 仍處於早期階段,但 Odyssey 對其所能達到的 3D 細節和真實感表示興奮,認為其在現場電影、超逼真遊戲和新型娛樂形式中的應用潛力巨大。不過,該公司也承認,目前 Explorer 存在一些限制,例如生成場景平均需要 10 分鐘,且生成的場景解析度較低,偶爾會出現視覺偽影等問題。

Odyssey 已將 Explorer 提供給了包括英國 Garden Studios 在內的多家制作公司和一群獨立藝術家,感興趣的使用者可以在 Odyssey 的部落格上申請測試。Odyssey 表示其致力於與創意專業人士合作,而不是取代他們。為此,該公司宣佈皮克斯聯合創始人及前華特迪士尼動畫工作室總裁艾德・卡特穆爾已加入其董事會並進行了投資。

Odyssey 的創始人之一奧利弗・卡梅倫曾任 Cruise 的產品副總裁,而傑夫・霍克則是 Wayve 的創始研究員。迄今為止,Odyssey 已從包括 EQT Ventures、GV 和 Air Street Capital 在內的投資者那裡籌集了 2700 萬美元。(@AIbase 基地)

3、免費版 GitHub Copilot 上線,VS Code 每月補全 2000 次程式碼

微軟旗下程式碼託管平臺 GitHub 今天(12 月 19 日)釋出博文,宣佈 GitHub Copilot Free 免費訂閱,開發者可以在 Visual Studio Code 程式碼編輯器中,免費使用 GitHub Copilot AI 服務。

開發者透過 GitHub Copilot Free 免費訂閱,可以選擇 Anthropic 的 Claude 3.5 Sonnet 或 OpenAI 的 GPT-4o 模型,每月可以呼叫 2000 次生成和補全程式碼,以及 50 次聊天資訊,要求其回答程式設計問題、解釋現有程式碼、排查程式碼 BUG、跨檔案執行編輯等,此外還支援 Copilot 的第三方智慧體。(@IT 之家)

4、前 Snap AI 科學家再創業,打造實時影片聊天機器人平臺

曾被 Snap 收購以構建 My AI 聊天機器人的深度學習科學家,現籌集種子資金推出新創公司 eSelf。

該公司專注於開發和運營實時影片對話 AI 代理,其響應時間低於 1.7 秒,比 OpenAI 等公司的語音響應更快。

eSelf 已從隱身模式中走出,獲得 450 萬美元融資,將主要服務於教育、銷售、金融服務等行業。目前客戶包括 Christie’s 房地產和巴西銀行 AGI。(@AI 知識共創)

5、ElevenLabs 推出 Flash ——一款用於對話式 AI 的超快速文字轉語音模型

ElevenLabs 最新推出的文字轉語音 (TTS) 模型 Flash,旨在為對話式應用帶來前所未有的速度提升。Flash 生成語音僅需 75 毫秒(不包括應用和網路延遲),相比現有解決方案,可提供響應更迅速、更自然的聽覺體驗。

ElevenLabs 將 Flash 定位為構建低延遲對話語音代理的開發人員的理想之選。其速度優勢使其尤其適用於實時互動場景,在這些場景中,最小化延遲是打造真正沉浸式使用者體驗的關鍵。

Flash 現已透過 ElevenLabs 的對話式 AI 平臺以及其 API 直接開放使用,模型 ID 分別為 eleven_flash_v2(僅支援英語)和 eleven_flash_v2_5(支援 32 種語言)。兩種版本的計費方式均為每 2 個字元消耗 1 個積分。

ElevenLabs 承認 Flash 在音質和情感深度方面與他們的 Turbo 模型相比略有遜色,但強調 Flash 的整體質量仍優於競品模型。他們認為,對於許多對話場景而言,更低的延遲是值得的取捨。(@ ElevenLabs)

03 有態度的觀點

1、李飛飛:世界是三維的,我們需要尊重這一事實

近日,李飛飛在 2024 NeurIPS 上發表了她的個人演講,其主題為「攀登視覺智慧的階梯」。

李飛飛在演講中闡述了對未來機器視覺的願景。其中她提到,空間智慧是視覺智慧的發展方向。李飛飛認為,世界是三維的,一旦尊重了世界的三維性,很多事情就自然而然地發生了。李飛飛同時舉出「籃球被投入一個場景中,只有三維能做到,2D 平面中籃球則無處可去」的例子來證明了三維空間事情發生的邏輯性。

最後,當被提問到「人工智慧理解了三維世界所帶來的好處」時,李飛飛回答出了具體使用場景。她覺得可以結合 AR 技術,在三維空間構建出使用者所需要獲取的內容,如透過視覺三維去解釋周遭一切的實體資訊。(@ APPSO)

更多 Voice Agent 學習筆記:

Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……

幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記

市場規模超 60 億美元,語音如何改變對話式 AI?

2024 語音模型前沿研究整理,Voice Agent 開發者必讀

從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶

WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?

人類級別語音 AI 路線圖丨 Voice Agent 學習筆記

語音 AI 革命:未來,消費者更可能傾向於與 AI 溝通,而非人工客服

語音 AI 迎來爆發期,也仍然隱藏著被低估的機會丨 RTE2024 音訊技術和 Voice AI 專場

下一代 AI 陪伴 | 平等關係、長久記憶與情境共享 | 播客《編碼人聲》

Voice-first,閉關做一款語音產品的思考|社群來稿

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章