微軟預計年底實現實時語音介面;矽基智慧開源 AI 數字人互動平臺 Duix 丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@JLT,@ 鮑勃
01 有話題的新聞
1、Meta 推出 LLM Compiler 程式碼最佳化模型,可搭配其他 AI 改善程式碼生成 / 編譯能力
IT 之家 6 月 30 日訊息,Meta 前天推出了一款名為「LLM Compiler」的模型,該模型基於 Meta 現有的 Code Llama 打造,主打程式碼最佳化,目前相關模型已登陸 Hugging Face,提供 70 億引數及 130 億引數兩個版本,允許學術及商業使用。
Meta 認為,儘管業界各大語言模型已在各種程式設計程式碼任務中展現了出色的能力,但此類模型在程式碼最佳化還有進步空間,目前推出的 LLM Compiler 模型便是一款專為最佳化程式碼任務設計的預訓練模型,能夠模擬編譯器對程式碼進行最佳化,或將「已經過最佳化的程式碼轉換回原本的語言」。
IT 之家獲悉,LLM Compiler 在 5460 億個 LLVM-IR 和彙編程式碼標記的龐大語料庫上進行了訓練,據稱能夠達到 77% 的 “程式碼最佳化潛力”,開發者可以自由將相關模型配合其他 AI 模型一起使用,從而改善生成程式碼的質量。(@IT 之家)
2、榮耀宣佈與位元組豆包大模型達成合作
據火山引擎官方訊息,榮耀與位元組豆包大模型現已達成合作,豆包大模型家族中的語音識別、角色扮演等多款模型將助力榮耀構建移動辦公領域垂直模型落地應用的基礎能力。據介紹,豆包大模型將為榮耀手機使用者提供基於文件理解的互動問答、按照指定格式一鍵生成會議紀要,以及包括工作總結、演講稿、會議議程、廣告文案、現代詩等在內的多型別、多體裁、多風格智慧輔助創作。
具體來看,以撰寫企業全員活動邀請函這一場景為例,豆包大模型可以提供活動資訊、撰寫要求,並生成邀請函框架及具體內容,使用者也可以透過自然語言對話來對成文進行後續的多次修改。(@CSDN)
3、馬斯克宣佈 xAI 將在 8 月份推出 Grok-2 大模型,預計年底推出 Grok-3
7 月 1 日訊息,據國外媒體報導,在 3 月份推出 Grok-1.5,4 月份推出 Grok-1.5V 之後,由馬斯克創立並領導的人工智慧初創公司 xAI,在今年還將對 Grok 系列大模型進行兩次重大更新,先後推出 Grok-2 和 Grok-3。
Grok-2 和 Grok-3 大模型將在今年推出,是由馬斯克在社交媒體上透露的,其中 Grok-2 將在 8 月份推出,Grok-3 則是將在年底推出。
此外,馬斯克還透露,計劃年底推出的 Grok-3,將在 10 萬塊英偉達的 H100 上訓練,有可能超越目前的人工智慧基準,並真正抓住全球人工智慧愛好者的想象力。(@TechWeb)
4、OpenAI CEO Sam Altman:GPT-5 將帶來「巨大飛躍」
7 月 1 日訊息,根據 Aspen Ideas Festival 上的一次訪談,Sam Altman 提到,開發「GPT-5」還需要一些時間。「我們目前持樂觀態度,但還有很多工作要做。」Sam Altman 表示。
目前尚不清楚 GPT-5 的釋出日期,但 Sam Altman 表示它將是「巨大飛躍(significant leap forward)」,或許是相較於其前輩 GPT-4 而言。此前,Sam Altman 曾公開表示 GPT-4「有些糟糕」,並委婉地稱之為「充其量只是有點尷尬」。
Sam Altman 進一步解釋說:「我希望它能取得重大飛躍。GPT-4 經常犯很多錯誤,比如在推理方面表現不佳,有時還會完全跑偏,犯下低階錯誤,就像連一個六歲孩子都不會犯的一樣。」
Sam Altman 關於 GPT-5 的言論暗示,這個模型可能仍處於早期開發階段。這可能歸因於複雜演算法、資料問題以及 GPT-5 本身龐大的體量。Sam Altman 將大型語言模型的開發類比為 iPhone 的釋出,「第一款 iPhone 仍然存在很多漏洞,但足以讓人們使用。」(@IT 之家)
5、矽基智慧開源 AI 數字人互動平臺 Duix,可快速建立部署逼真數字人
該平臺旨在幫助開發者簡化智慧數字人的建立和部署過程,提供了豐富的工具和支援,無需技術團隊的介入,即可在各種終端裝置上部署數字人。使用者可以下載多種數字人模型,適用於不同行業需求,並且該專案已開源,便於開發者進行二次開發和個性化定製。功能包括語音輸入、語音輸出、實時互動和多終端支援等。
此外,平臺還提供虛擬助理服務,可應用於乘客服務、自動化客戶服務、智慧諮詢服務、虛擬主持人等場景,提升使用者體驗和服務效率。(@AI 科技評論)
02 有態度的觀點
1、微軟 AI CEO Mustafa Suleyman:今年年底,我們將擁有實時的語音介面,允許完全動態的互動
在近日阿斯彭思想節上,微軟 AI 負責人 Mustafa Suleyman 與著名財經記者 Andrew Ross Sorkin 進行了一場深入對話。
Mustafa Suleyman 預計年底將實現實時語音介面,實現完全動態互動。Suleyman 強調, AI 的發展並不會像加密貨幣那樣成為一時的熱潮,而是會持續對社會產生深遠影響。他指出,當前的 AI 技術已經在多個領域展現了其價值,這與加密貨幣在短時間內的表現形成鮮明對比。
在談及中美技術競爭時,Suleyman 呼籲在保持競爭的同時,也應尋求合作的機會。他指出,儘管中美之間存在技術上的分裂,但全球化背景下的合作仍然是不可忽視的趨勢。透過共同努力,雙方可以在各自的技術生態系統中找到共存的方式。(@ 有新 Newin)
2、祖克伯最新萬字洞察:資訊流媒體將轉向個人及 AI 互動,看好這三類硬體
Meta CEO 祖克伯預測,未來十年資訊流媒體將轉向個人及 AI 互動,智慧眼鏡將逐步取代手機。他看好全息眼鏡、神經腕帶等三類硬體,認為它們將改變人類互動方式,提升個性化體驗。
祖克伯強調 AI 技術將多樣化,助力創作者和小企業定製 AI,豐富使用者互動。他還提到,技術發展將使更多人追求創造力,AI 不會取代創意工作,而是提供新工具。(@ 有新 Newin)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 活動報名丨實時互動 AI 開發者年度聚會!RTE Open Day@RTE2024,10.25/26 北京AI
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- 微軟開源 .NET 框架 實現跨平臺微軟框架
- RTE 大會報名丨 重塑語音互動:音訊技術和 Voice AI,RTE2024 技術專場第一彈!音訊AI
- 平價 Vision Pro 需搭配 Mac/iPhone;OpenAI 收購實時分析資料庫公司丨 RTE 開發者日報MaciPhoneOpenAI資料庫開發者日報
- 實時語音互動,打造更加智慧便捷的應用
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 特斯拉宣佈 10% 大裁員;劉強東數字人開啟直播首秀丨 RTE 開發者日報 Vol.185開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- “仍有 5 億人堅持用 QQ”;馬斯克:本週開源 xAI 人工智慧助手丨 RTE 開發者日報 Vol.162馬斯克AI人工智慧開發者日報
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 位元組預熱智慧硬體 Ola Friend,預計為智慧耳機;鴻蒙 NEXT 公測正式開啟,微信邀請內測丨 RTE 開發者日報鴻蒙開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 智譜清言 App 面向 C 端開放 AI 視訊通話服務;谷歌 GameNGen:神經網路驅動的實時遊戲引擎丨 RTE 開發者日報APPAI谷歌GAM神經網路遊戲引擎開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 實時互動平臺流程與技術分析
- 低程式碼開發平臺開源:依靠科技力量實現數字化轉型!
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 語音識別的最終目標是真正實現人機互動
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- ChatGPT 新增朗讀功能;微軟 Win11 滑鼠懸停自動開啟 Copilot 丨 RTE 開發者日報 Vol.158ChatGPT微軟開發者日報
- OpenAI 收購桌面實時協作公司 Multi;iOS 18 開放 iPhone 映象測試丨 RTE 開發者日報 Vol.231OpenAIiOSiPhone開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 語音生成公司 ElevenLabs 估值達 30 億美元;OpenAI Realtime API 很好也很貴丨 RTE 開發者日報OpenAIAPI開發者日報
- 谷歌破解 OpenAI 模型關鍵資訊;微軟更改預設瀏覽器,不再主推 Edge 丨 RTE 開發者日報 Vol.163谷歌OpenAI模型微軟瀏覽器開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- Neuralink 將啟動第二例人類腦機晶片植入;多項 Claude 3.5 Sonnet AI 工具釋出丨 RTE 開發者日報晶片AI開發者日報
- 開發者實踐丨Agora Home AI 音視訊的未來GoAI