a16z:小模型 + 邊緣 AI 將定義 2025;音效模型 TangoFlux:3 秒鐘生成 30 秒音訊丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、微軟論文曝光 GPT 機密內容
近日,微軟釋出的一篇醫學相關的論文中,曝光了 OpenAI 旗下模型的引數。
根據論文披露,OpenAI 的 o1-preview 模型約有 300B 引數,GPT-4o 約 200B,而 GPT-4o-mini 僅有 8B 引數。有訊息指出,英偉達此前公佈的 GPT-4 採用 1.8T MoE 架構,而此次微軟公佈的為 1.76T。同時,論文還透露了 Claude3.5Sonnet 的引數規模約為 175B。
據瞭解,這並非微軟第一次「洩露」模型引數資訊。此前微軟曾在一篇論文中披露 GPT-3.5-Turbo 的 20B 引數資訊,但隨後又在更新版本中刪除了這一資訊。
此外,此篇論文的主要目的是介紹一個名為 MEDEC 的醫療領域基準測試。研究團隊分析了來自三家美國醫院的 488 份臨床筆記,評估了各大模型在識別和糾正醫療文件錯誤方面的能力。(@APPSO)
2、Meta AI 推出 LIGER 混合檢索 AI 模型,計算效率與推薦精度兼得
Meta AI 公司聯合威斯康星大學麥迪遜分校、ELLIS Unit、LIT AI Lab、機器學習研究所、JKU Linz 等機構,混合密集檢索和生成檢索,推出了 LIGER(LeveragIng dense retrieval for GEnerative Retrieval)模型。
該模型混合了生成檢索的計算效率和密集檢索的精度,利用生成檢索生成候選集、語義 ID 和文字屬性的專案表示,再透過密集檢索技術進行精練,平衡了效率和準確性。
LIGER 採用雙向 Transformer 編碼器和生成解碼器。密集檢索部分整合了專案文字表示、語義 ID 和位置嵌入,並使用餘弦相似度損失進行最佳化。生成部分使用波束搜尋根據使用者互動歷史預測後續專案的語義 ID。
透過這種混合推理過程,LIGER 降低了計算需求,同時保持了推薦質量。LIGER 還能很好地泛化到未見過的專案,解決了先前生成模型的關鍵限制。
在 Amazon Beauty、Sports、Toys 和 Steam 等基準資料集上的評估顯示,LIGER 的效能持續優於 TIGER 和 UniSRec 等現有最先進模型。(@IT 之家)
3、超快音效生成模型 TangoFlux:僅需 3 秒鐘就能生成 30 秒長音訊
新加坡科技設計大學(SUTD)和 NVIDIA 聯合釋出了一種高效的文字到音訊生成模型(TTA)——TangoFlux 。
TANGOFLUX 是一種高效的文字到音訊生成模型,擁有 515 百萬個引數,能夠在短短 3.7 秒內生成最長可達 30 秒的 44.1kHz 音訊,這一速度讓其在單個 A40GPU 上的表現非常出色。
TANGOFLUX 主要是特色是可以生成各種音效,例如鳥叫、口哨、爆炸等聲音,另外也支援生成音樂不過效果就不那麼理想了。
文字音訊生成模型的一個主要挑戰在於如何建立偏好配對。與大型語言模型(LLMs)不同,文字音訊生成模型缺乏可驗證的獎勵機制或金標準答案。為了解決這個問題,研究團隊提出了一種名為 CLAP-Ranked Preference Optimization(CRPO)的新框架。該框架透過迭代生成和最佳化偏好資料,以提升文字音訊生成模型的對齊效能。研究表明,使用 CRPO 生成的音訊偏好資料在效能上優於現有的替代方案。
透過這一框架,TANGOFLUX 在多項客觀和主觀基準測試中都取得了領先的表現。此外,研究團隊還決定將所有程式碼和模型開源,以支援更多人對文字音訊生成的研究。
在實際效果方面,TANGOFLUX 在音訊生成質量上優於其他模型,展現出更清晰的事件聲音、更好的事件順序再現以及更高的音訊質量。透過對多個示例的比較,使用者可以直觀地感受到 TANGOFLUX 在音訊生成中的優勢。(@AIbase 基地)
02 有亮點的產品
1、VocAdapt:一款語言學習工具
VocAdapt 是一款新推出的 Chrome 瀏覽器擴充套件,專注於提供創新的語言學習解決方案。它的核心特點是將日常網頁瀏覽和 YouTube 影片觀看轉化為語言學習機會,透過自動調整內容難度來適應使用者的語言水平。
使用者無需額外安排學習時間,只需在日常上網時使用這個工具,就能實現自然的語言學習。它特別適合那些想透過真實內容學習語言、時間有限或偏好沉浸式學習方法的人。使用方式簡單,安裝後選擇目標語言,即可開始在日常瀏覽中學習。(@Z potentials)
2、SEObot:全球首個 AI 驅動的部落格 SEO 代理
SEObot 是一款革命性的 AI 驅動部落格 SEO 工具,旨在為內容創作者和營銷人員提供全面的 SEO 最佳化和內容生成服務。其核心價值在於透過先進的 AI 技術,實現高質量、非垃圾內容的自動化生成,同時最佳化 SEO 策略,提高網站的搜尋引擎排名。產品的主要功能包括 AI 生成部落格內容、自動內部連結、關鍵詞研究、影片嵌入、圖片生成、反幻覺機制、事實核查和引用來源等。
SEObot 的獨特優勢在於其全面性和自動化程度,能夠滿足從內容創作到 SEO 最佳化的全流程需求。目標使用者主要包括部落格作者、內容營銷團隊和希望提升網站 SEO 表現的企業。透過提供可選的人工稽核和與大多數 CMS 系統的自動同步功能,SEObot 大大簡化了內容創作和 SEO 最佳化的工作流程,為使用者節省時間和資源,同時確保內容質量和搜尋引擎友好性。(@Z potentials)
03 有態度的觀點
1、a16z 華裔合夥人 Jennifer Li 最新洞察:小模型 + 邊緣 AI 將定義 2025
a16z 合夥人 Jennifer Li 最近分享了她對生成式 AI 的最新見解,特別提到了裝置端執行的小型模型在未來的重要性。
去年 4 月,Jennifer 升任為 a16z 第 27 位普通合夥人,並在 a16z 新成立的 12.5 億美元 AI 基礎設施基金扮演關鍵角色。
Jennifer 表示,生成影像、語音和影片的生成式模型將在基礎設施和裝置計算能力方面變得更加普及,這為小型模型的崛起提供了絕佳條件,而在裝置端執行的小型生成式 AI 模型將在 2025 年更加流行。
許多日常使用的應用程式,比如 Uber、Instacart、Lyft 或 Airbnb,已經在裝置端執行了大量機器學習模型。然而,她特別想強調的是生成式模型,它們正在逐漸實現類似傳統機器學習模型的裝置端執行。
Jennifer 表示,如今的智慧手機計算能力相當於 10~20 年前的電腦,加上摩爾定律的作用,像 20 億或 80 億引數的小型模型,已經足夠在裝置端高效執行,並提供強大的功能,這一變化得益於裝置計算能力的提升和模型最佳化技術的進步 。
此外,她還提到蒸餾技術發展也是一大關鍵。這項技術可以將一個功能強大的大型模型壓縮成較小的模型,同時保留大部分能力,這種技術結合裝置計算能力的提升,為小型模型的廣泛應用奠定了基礎。
相比雲端執行,裝置端執行生成式模型有許多顯著優勢。首先是實時性。使用者希望與聊天機器人互動時能夠立即收到響應,或者在社交媒體中新增濾鏡時無需等待幾秒鐘載入。裝置端執行能夠顯著減少延遲,為使用者提供更加流暢和直觀的體驗。
然後是隱私保護。如果資料處理可以完全在本地完成,比如會議記錄功能,大多數使用者會更加願意使用這些應用,而不用擔心隱私資料被上傳到伺服器進行處理。
經濟性和效率也是重要因素。雖然雲端推理的成本正在下降,但裝置端執行可以進一步最佳化開發者的效率,加快迭代速度,並降低一部分基礎設施的依賴。
某些計算密集型任務可能仍需要雲端支援,但許多日常應用場景完全可以透過本地模型實現,從而減少對網路和伺服器的依賴。
她還提到,裝置端模型的潛力正在釋放,在未來我們可能會看到以下應用場景的廣泛普及:
- 實時語音助手與對話 AI: 這些助手能夠流暢地處理與使用者的互動,例如個性化的 AI 教練或客戶服務支援。
- 擴增實境(AR)體驗: 透過攝像頭和生成式 AI 的結合,使用者可以實時重新設計空間,例如更改牆紙、傢俱擺放等。
- 混合現實與創意表達: 生成 3D 模型和影片的新技術將改變我們與現實世界的互動方式,使得虛擬體驗更加生動有趣。
- 可穿戴裝置創新: 智慧手錶和其他可穿戴裝置將透過小型化生成模型解鎖更多個性化功能。
雖然裝置端模型帶來了諸多可能性,但仍面臨一些挑戰。例如,裝置端模型需要隨著硬體和應用的更新而同步迭代,開發和部署成本也可能有所增加。
另外,雲端和裝置端結合的經濟模式需要重新設計,這將對整個供應鏈產生深遠影響。(@ 有新 Newin)
更多 Voice Agent 學習筆記:
對話谷歌 Project Astra 研究主管:打造通用 AI 助理,主動影片互動和全雙工對話是未來重點
這家語音 AI 公司新融資 2700 萬美元,並預測了 2025 年語音技術趨勢
語音即入口:AI 語音互動如何重塑下一代智慧應用
Gemini 2.0 來了,這些 Voice Agent 開發者早已開始探索……
幫助使用者與 AI 實時練習口語,Speak 為何能估值 10 億美元?丨 Voice Agent 學習筆記
市場規模超 60 億美元,語音如何改變對話式 AI?
2024 語音模型前沿研究整理,Voice Agent 開發者必讀
從開發者工具轉型 AI 呼叫中心,這家 Voice Agent 公司已服務 100+ 客戶
WebRTC 建立者剛加入了 OpenAI,他是如何思考語音 AI 的未來?
人類級別語音 AI 路線圖丨 Voice Agent 學習筆記
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- Stability AI開源47秒音訊生成模型,蟲鳴鳥叫、搖滾、鼓點都能生成AI音訊模型
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 秒合約開發(穩定版)丨秒合約系統開發(開發案例)丨秒合約系統原始碼詳情原始碼
- CosyVoice 2.0 支援雙向流式語音合成;無問芯穹開源全模態理解端側模型丨 RTE 開發者日報模型開發者日報
- 秒懂邊緣雲 | 邊緣雲技術進階
- a16z:大模型的邊際成本變化將引發革命大模型
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 【秒懂音視訊開發】08_音訊錄製音訊
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 蘋果滑鼠有望加入 AI 語音控制功能;Accent Oracl :準確識別你口音的 AI 丨 RTE 開發者日報蘋果AI開發者日報
- Meta 研發大型 AI 推薦引擎;全球首部全面監管 AI 法規將落地丨 RTE 開發者日報 Vol.160AI開發者日報
- PIFuHD 讓照片秒變 3D 模型3D模型
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報