阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@JLT,@ 鮑勃
01 有話題的新聞
1、阿里雲開源 Qwen2-Audio 音訊聊天和預訓練大型音訊語言模型
Qwen2-Audio 由阿里巴巴集團 Qwen 團隊開發,它能夠接受各種音訊訊號輸入,對語音指令進行音訊分析或直接文字回復。與以往復雜的層次標籤不同,Qwen2-Audio 透過使用自然語言提示簡化了預訓練過程,並擴大了資料量。
Qwen2-Audio 有兩個顯著的特點:它能夠智慧理解音訊內容並按照聲音命令做出適當的反應;而且,它在語音聊天和音訊分析兩種模式下都能工作,使用者可以自由地與它進行語音互動,無需文字輸入。例如,如果音訊片段中同時包含聲音、多人對話和語音命令,Qwen2-Audio 能夠直接理解命令並提供對音訊的解釋和回應。
報告還提到,Qwen2-Audio 在事實性和遵循期望行為方面經過了最佳化,並且在音訊中心指令跟隨能力的測試中,其表現超過了以前的最先進技術,如 Gemini-1.5-pro。此外,Qwen2-Audio 是開源的,目的是推動多模態語言社群的發展。(@ 喜好兒網)
2、AI 影片轉換:Live2Diff 實現實時流處理
上海人工智慧實驗室、薩爾蘭電腦科學中心和麥克斯普爾特電腦科學研究所以及南洋理工大學的 S-Lab 的科研團隊聯合開發了一項名為 Live2Diff 的創新技術,為實時影片流轉換領域帶來重大突破。這項技術巧妙地將單向注意力機制應用於影片擴散模型,在不依賴未來幀的情況下實現了高質量的實時影片處理。
Live2Diff 在 RTX 4090 GPU 上可達到 16FPS 的處理速度,展現出卓越的效能。透過採用高效的去噪方案和流水線處理,該技術在時間平滑性、效率和生成質量方面都超越了現有方法。(@AI 科技評論)
3、ReadLecture 讓影片內容瞬間化為精華筆記
ReadLecture 是一款影片轉圖文 AI 工具,能極大提升使用者看影片的效率,原本 2 小時的講座影片,只需要 5 分鐘即可瞭解影片內容全貌。這款工具融入大語言模型、語音轉文字和機器視覺等前沿技術,可以準確轉錄講話稿和提取關鍵幀(如講座的 PPT),並給出詳細的總結、翻譯和思考筆記。
該工具提供三種輸出版式,適合沉浸式閱讀、快速瀏覽和深入分析。ReadLecture 還能提供多種形式的內容總結,如思維導圖、問答式理解和辯證性思考等。(@AI 科技評論)
4、曝 AI 學者李飛飛初創企業估值超 10 億美元
據《金融時報》報導,知情人士透露,著名華裔電腦科學家李飛飛創辦的「空間智慧」企業 World Labs 估值已經超過 10 億美元。據悉,該企業將嘗試透過開發類似人類的視覺資料處理,以創造一種「空間智慧」的 AI。
據透露,從 4 月成立至今,World Labs 已經進行了兩輪融資,投資方包括頂級科技投資人 Andreessen Horowitz 和 AI 基金 Radical Ventures,最新一輪的融資金額可能達到約 1 億美元。(@ 愛範兒)
5、月之暗面回應大模型顯示「9.11 大於 9.9」
近日,有媒體記者測試了 12 個國內外主流大模型,其中 ChatGPT-4o、位元組豆包、月之暗面 kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智慧百小應、商湯商量等模型均在測試中回答:9.11 大於 9.9,相關話題登上微博熱搜。
對於上述現象,月之暗面回應新浪科技稱,目前對大模型的能力探索還處在非常早期的階段,像是「9.9 和 9.11 哪個大」和「strawberry 有幾個 r」這些邊界案例的發現都有助於增加開發者對大模型能力邊界的瞭解。
月之暗面也表示,要解決問題,需要不斷增強底層基礎模型的智慧水平,讓大模型變得更加強大和全面,能夠在各種複雜和極端情況下依然表現出色。
也有相關人士表示,大模型可能學習到的都是「版本號」、「章節」、「日期」等場景,這些場景下 9.11 確實大於 9.9,大模型回答錯誤可能是沒有跟人類的需求對齊。(@ 愛範兒 )
02 有態度的觀點
1、騰訊首席科學家張正友:僅把大模型塞進機器人產生不了真正的具身智慧
騰訊首席科學家張正友在「AI 時代的人機關係展望」論壇上介紹了 Robotics X 實驗室基於「層次化」控制研發智慧機器人的進展,以及人機共生時代的經濟發展機遇與應對策略。他認為長遠來看,智慧機器人會走進千家萬戶,尤其在康復養老、個性化教育等領域帶來變化。他強調智慧機器人需要有複雜的感知能力、強大的執行能力、學習能力和自適應能力等,以用於安全地生活在人類環境中並在遵循道德和法律規範的前提下,有效地服務人類。他分享了實驗室的研究成果,如讓機器狗學會真狗的運動方式和讓機器人自主完成複雜任務等。(@ 騰訊研究院)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 多模態大模型大模型
- Mistral 釋出 Large 2 123B 大模型;微軟釋出 VALL-E 2,零樣本實現聲音克隆丨 RTE 開發者日報大模型微軟開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 最懂工業的大模型來了!思謀釋出全球首個工業多模態大模型大模型
- 基於多模態大模型的人機對話大模型
- 實時多模態 AI 的 N 種新可能丨實時互動和大模型專場 @RTE2024 回顧AI大模型
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 奧特曼回應 OpenAI 股權問題和「封口協議」;月暗楊植麟:大模型和網際網路開發模式完全不同丨 RTE 開發者日報 Vol.207奧特曼OpenAI協議大模型模式開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 9.11和9.9誰大?我們實測15個大模型,超半數翻車大模型
- 多模態大模型工作梳理(施工中....)大模型
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 迴圈智慧攜手月之暗面,共建行業大模型解決方案及應用行業大模型
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 亞馬遜雲集齊 Claude 3 全家桶;世界數字技術院釋出大模型安全國際標準丨 RTE 開發者日報 Vol.187亞馬遜大模型開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報
- 最強國產 Sora 大模型 Vidu 釋出,長度可達 16 秒;微信檔案 3 小時內可撤回丨 RTE 開發者日報 Vol.194Sora大模型開發者日報
- 蘋果歷時 13 年最終勝訴;谷歌釋出 Gemma 大模型;華為首超蘋果成中國平板市場第一丨 RTE 開發者日報 Vol.149蘋果谷歌Gemma大模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- LLM大模型:LLaVa多模態圖片檢索原理大模型
- 釋出會後蘋果股價創歷史新高;商湯 Embedding 模型拿下 SOTA 丨 RTE 開發者日報 Vol.223蘋果模型開發者日報
- OpenDevin出技術報告了,大模型Agent開發者必讀dev大模型
- LLaMA-Factory微調多模態大語言模型教程模型
- 中國 10 億引數規模以上大模型數量已超 100 個;GitHub 推出程式碼自動修復工具丨 RTE 開發者日報 Vol.172大模型Github開發者日報
- 大模型Grok-1.5釋出大模型
- 馬斯克回應蓋茨;谷歌反壟斷案開庭;蘋果釋出 3nm 晶片的 iPhone 15丨RTE開發者日報 Vol.48馬斯克谷歌蘋果晶片iPhone開發者日報