Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、第一個開源的具有實時對話能力的多模態模型:Mini-Omni
Mini-Omni 是一個開源多模型大型語言模型,可以一邊聽、一邊說,一邊思考。具有實時端到端語音輸入和流音訊輸出對話功能。Mini-Omni 是清華大學啟元實驗室開源的專案,能聽、能說也能實時思考,在實時語音互動上媲美 GPT-4o。
Mini-Omni 特徵
- 實時語音到語音的對話能力: 無需額外的 ASR 或 TTS 模型
- 邊思考邊說話: 能夠同時生成文字和音訊
- 流式音訊輸出: 支援流式音訊輸出
- Any Model Can Talk」方法: Mini-Omni 可以將語音互動能力新增到其他模型中,為其他模型賦能(@PaperAgent)
2、谷歌 DeepMind 展示 GenRM 技術:微調 LLMs 作為獎勵模型,提升生成式 AI 推理能力
谷歌 DeepMind 團隊於 8 月 27 日在 arxiv 上發表論文,介紹展示了 GenRM 生成式驗證器,創造性提出獎勵模型,從而提升生成式 AI 推理能力。
AI 行業內,目前提高大語言模型(LLMs)的主流做法就是 Best-of-N 模式,即由 LLM 生成的 N 個候選解決方案由驗證器進行排序,並選出最佳方案。這種基於 LLM 的驗證器通常被訓練成判別分類器來為解決方案打分,但它們無法利用預訓練 LLMs 的文字生成能力。
DeepMind 團隊為了克服這個侷限性,嘗試使用下一個 token 預測目標來訓練驗證器,同時進行驗證和解決方案生成。
DeepMind 團隊這種生成式驗證器(GenRM),相比較傳統驗證器,主要包含以下優點:
- 無縫整合指令調整
- 支援思維鏈推理
- 透過多數投票利用額外的推理時間計算
在演算法和小學數學推理任務中使用基於 Gemma 的驗證器時,GenRM 的效能優於判別式驗證器和 LLM-as-a-Judge 驗證器,在使用 Best-of-N 解決問題的百分比上提高了 16-64%。
據 Google DeepMind 報導,GenRM 相對於分類獎勵模型的邊標誌著人工智慧獎勵系統的關鍵演化,特別是在其容量方面,以防止新模型學成到的欺詐行為。這一進步突出表明,迫切需要完善獎勵模型,使人工智慧輸出與社會責任標準保持一致。(@IT 之家)
3、谷歌 AI 推出 CardBench 評估框架:含 20 個真實資料庫,更全面評估基數估計模型
在資料驅動的時代,資料庫查詢的效能最佳化成為了企業提升競爭力的關鍵。近日,谷歌 AI 研究團隊最新推出了 CardBench 評估框架,這一創舉將為學習型基數估計(cardinality estimation,簡稱 CE)領域帶來前所未有的全面評估能力。
CardBench 評估框架旨在滿足系統對基數估計模型的全面評估需求。該框架不僅包含了 20 個不同真實資料庫中的數千次查詢,其規模和多樣性均遠超以往的任何基準,為資料庫查詢效能的最佳化提供了強有力的支援。
基數估計是最佳化關聯式資料庫查詢效能的關鍵,影響查詢最佳化器對執行計劃的選擇,不準確的估計會降低效能。現代資料庫系統中的基數估計技術存在不足,且因缺乏全面基準難以比較不同模型和評估通用性。
CardBench 支援基於例項、零點、微調三種模型設定,提供兩組訓練資料,包括 9125 個單表查詢和 8454 個二進位制連線查詢,確保了評估的全面性和準確性。
在實際測試中,微調圖神經網路(GNN)模型在二進位制連線查詢中展現出了卓越的效能。其 q-error 中位數僅為 1.32,第 95 百分位數也僅為 120,明顯優於零點模型。這一結果表明,即使在訓練資料有限的情況下,透過對預訓練模型進行微調也能大幅提升其效能。這為實際應用中訓練新模型成本過高的問題提供了切實可行的解決方案。(@IT 之家)
4、狨猴會用名字稱呼彼此
希伯來大學的研究人員發現,狨猴使用一種叫做「phee-calls」的特殊叫聲來識別和交流。到目前為止,這種語音標記他人的能力只在人類、海豚和大象身上發現過。研究人員記錄了成對狨猴之間的自然對話,以及猴子與計算機系統之間的互動。他們發現這些猴子用它們的「phee-call」來稱呼特定的個體。更有趣的是,狨猴可以分辨出什麼時候是針對它們的叫聲,而且當它是針對它們的時候,它們的反應更準確。研究還表明,狨猴群體中的家庭成員使用相似的聲音標籤來稱呼不同的個體,並使用相似的聲音特徵來編碼不同的名字,類似於人類使用的名字和方言。這種學習似乎甚至發生在沒有血緣關係的成年狨猴身上,這表明它們從家庭群體的其他成員那裡學習聲音標籤和方言。研究人員認為,這種聲音標籤可能已經進化到幫助狨猴在茂密的雨林棲息地保持聯絡,在那裡能見度通常有限。透過這些叫聲,它們可以維持社會紐帶,保持群體凝聚力。(@ 奇客 Solidot)
5、Cursor 開源平替:AI 程式設計工具 Melty 讓程式設計效率提升 10 倍
Melty 是一個開源的 AI 程式碼編輯器,由 Replicate 和 Netflix 等組織成員開發,得到 Y Combinator 的支援。Melty 能夠理解開發者從終端到 GitHub 的編碼過程,並協作編寫生產就緒的程式碼,有助於提升程式設計效率。
在短短 28 天的開發期間,Melty 就能夠自動編寫一半的程式碼,展現了其快速迭代和學習能力。Melty 不僅能夠提升程式設計效率,還能幫助開發者理解程式碼的每一個變化,就像有一個搭檔在旁邊指導。此外,Melty 還支援與編譯器、終端和偵錯程式等工具的無縫整合,以及專案管理工具如 Linear 和 GitHub。(@ 機器之心 SOTA 模型)
02 有態度的觀點
1、A16z 投資者 Joshua Lu:AI 正在顛覆影片遊戲行業,Discord 是未來
Joshua Lu,作為 Andreessen Horowitz 的合夥人,以及曾經的 Zynga 和 Blizzard Entertainment 的產品主管,以及 Meta 的產品管理總監,對於遊戲行業的變革有著深刻的理解。
他指出,AI 正在幫助初創公司以質量和創新的方式製作遊戲,甚至可能以較低的成本和人力資源實現高質量的遊戲產品。例如,Speedrun 加速器中有一半的公司正在使用 AI 技術,從創作故事到生成 3D 頭像等方面。
Lu 還強調了 Discord 的潛力,它允許開發者在平臺內建立應用程式,為遊戲的發現和分發提供了新的途徑。此外,Lu 提到了幾家在 Discord 上建立遊戲的初創公司,如 Clementine 和 Echo Chunk,後者籌集了 140 萬美元,用於開發使用 AI 生成無限關卡的遊戲。Lu 認為,隨著更多的遊戲製作和分發平臺的出現,Discord 有望成為下一個讓社交遊戲得以建立和分發的平臺。(@ 雷鋒網)
閱讀完整報告:
當生成模型足夠快時,實時互動影片遊戲就將到來——A16Z 最新報告:下一代皮克斯,AI 會如何融合電影和遊戲?
03 RTE Builder 專案推薦
小智正在尋找技術和投資人啦!
專案目標: 我們的目標是打造全球每一位獨立旅行者的強大 AI 助手 - 小智旅遊助手,透過提供個性化、陪伴式的旅行支援,引領 AI 旅遊領域,給個人旅行者提供更加溫馨、懂你的服務。
專案創意 - 已實現功能:
區別於其他旅遊 APP,提出全新的智慧旅遊⽅式,透過深度學習⽤⼾的偏好和⾏程需求,主動為⽤⼾提供精準推薦和實時預警服務,告別使用者自己透過搜尋做旅遊攻略的方式。
以語音互動的方式提供餐廳、旅遊地點推薦,天氣和風險地區預警。讓助手擬人化,成為旅行中小夥伴的一員,而非冰冷的機器。
還在擔心一個人旅遊拍照的問題?有了小智,從指導到修圖,一站式幫您拍出美圖。
We are looking for:
- 技術人才 : 我們正在尋找具備前沿技術研發能力的優秀技術人才,尤其是在人工智慧、機器學習、大資料處理等領域有豐富經驗的專業人士。
- 技術合作: 歡迎其他技術團隊與我們開展技術合作,共同開發新的功能模組,最佳化現有技術方案,或整合雙方的技術資源,以實現技術上的突破和創新。
- 戰略投資方: 我們正在尋找有志於支援創新技術發展的戰略投資方,以推動專案的進一步發展和市場擴充。我們期待與能夠提供資金支援和戰略指導的投資者合作,共同推動專案成功。
更多資訊&聯絡方式:《小智正在尋找技術和投資人啦!We are looking for IT and investors!》
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo 丨 RTE 開發者日報ChatGPT開發者日報
- ChatGPT 開啟「眼睛」,實時攝像頭對話來了;崑崙萬維推出實時語音助手 Skyo丨 RTE 開發者日報ChatGPT開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 實時多模態 AI 的 N 種新可能丨實時互動和大模型專場 @RTE2024 回顧AI大模型
- 實時多模態 AI 的 N 種新可能丨實時互動和大模型專場@RTE2024回顧AI大模型
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 活動報名:Voice Agent 開發者分享會丨 RTE Meetup
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 基於多模態大模型的人機對話大模型
- 結合多模態 AI 谷歌展示 AR 眼鏡原型機;Meta 被曝開發帶攝像頭的 AI 耳機丨 RTE 開發者日報 Vol.204AI谷歌原型開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 特斯拉全自動駕駛能力(FSD)或與百度合作;小紅書內測自研大模型丨 RTE 開發者日報 Vol.196自動駕駛大模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報APPAI谷歌GAM神經網路遊戲引擎開發者日報
- 實時語音互動中文基準首期測評出爐;美取消 SB-1047 法案,大模型廠商大難不死丨 RTE 開發者日報大模型開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 英偉達市值超越蘋果;ChatGPT、Perplexity、Claude 同時大崩潰丨 RTE 開發者日報 Vol.220蘋果ChatGPT開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 什麼是人工智慧模型的多模態生成能力?人工智慧模型