阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報

RTE开发者社区發表於2024-07-18

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的新聞」、「有態度的觀點」、「有意思的資料」、「有思考的文章」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@JLT,@ 鮑勃

01 有話題的新聞

1、阿里雲開源 Qwen2-Audio 音訊聊天和預訓練大型音訊語言模型

Qwen2-Audio 由阿里巴巴集團 Qwen 團隊開發,它能夠接受各種音訊訊號輸入,對語音指令進行音訊分析或直接文字回復。與以往復雜的層次標籤不同,Qwen2-Audio 透過使用自然語言提示簡化了預訓練過程,並擴大了資料量。

Qwen2-Audio 有兩個顯著的特點:它能夠智慧理解音訊內容並按照聲音命令做出適當的反應;而且,它在語音聊天和音訊分析兩種模式下都能工作,使用者可以自由地與它進行語音互動,無需文字輸入。例如,如果音訊片段中同時包含聲音、多人對話和語音命令,Qwen2-Audio 能夠直接理解命令並提供對音訊的解釋和回應。

報告還提到,Qwen2-Audio 在事實性和遵循期望行為方面經過了最佳化,並且在音訊中心指令跟隨能力的測試中,其表現超過了以前的最先進技術,如 Gemini-1.5-pro。此外,Qwen2-Audio 是開源的,目的是推動多模態語言社群的發展。(@ 喜好兒網)

2、AI 影片轉換:Live2Diff 實現實時流處理

上海人工智慧實驗室、薩爾蘭電腦科學中心和麥克斯普爾特電腦科學研究所以及南洋理工大學的 S-Lab 的科研團隊聯合開發了一項名為 Live2Diff 的創新技術,為實時影片流轉換領域帶來重大突破。這項技術巧妙地將單向注意力機制應用於影片擴散模型,在不依賴未來幀的情況下實現了高質量的實時影片處理。

Live2Diff 在 RTX 4090 GPU 上可達到 16FPS 的處理速度,展現出卓越的效能。透過採用高效的去噪方案和流水線處理,該技術在時間平滑性、效率和生成質量方面都超越了現有方法。(@AI 科技評論)

3、ReadLecture 讓影片內容瞬間化為精華筆記

ReadLecture 是一款影片轉圖文 AI 工具,能極大提升使用者看影片的效率,原本 2 小時的講座影片,只需要 5 分鐘即可瞭解影片內容全貌。這款工具融入大語言模型、語音轉文字和機器視覺等前沿技術,可以準確轉錄講話稿和提取關鍵幀(如講座的 PPT),並給出詳細的總結、翻譯和思考筆記。

該工具提供三種輸出版式,適合沉浸式閱讀、快速瀏覽和深入分析。ReadLecture 還能提供多種形式的內容總結,如思維導圖、問答式理解和辯證性思考等。(@AI 科技評論)

4、曝 AI 學者李飛飛初創企業估值超 10 億美元

據《金融時報》報導,知情人士透露,著名華裔電腦科學家李飛飛創辦的「空間智慧」企業 World Labs 估值已經超過 10 億美元。據悉,該企業將嘗試透過開發類似人類的視覺資料處理,以創造一種「空間智慧」的 AI。

據透露,從 4 月成立至今,World Labs 已經進行了兩輪融資,投資方包括頂級科技投資人 Andreessen Horowitz 和 AI 基金 Radical Ventures,最新一輪的融資金額可能達到約 1 億美元。(@ 愛範兒)

5、月之暗面回應大模型顯示「9.11 大於 9.9」

近日,有媒體記者測試了 12 個國內外主流大模型,其中 ChatGPT-4o、位元組豆包、月之暗面 kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智慧百小應、商湯商量等模型均在測試中回答:9.11 大於 9.9,相關話題登上微博熱搜。

對於上述現象,月之暗面回應新浪科技稱,目前對大模型的能力探索還處在非常早期的階段,像是「9.9 和 9.11 哪個大」和「strawberry 有幾個 r」這些邊界案例的發現都有助於增加開發者對大模型能力邊界的瞭解。

月之暗面也表示,要解決問題,需要不斷增強底層基礎模型的智慧水平,讓大模型變得更加強大和全面,能夠在各種複雜和極端情況下依然表現出色。

也有相關人士表示,大模型可能學習到的都是「版本號」、「章節」、「日期」等場景,這些場景下 9.11 確實大於 9.9,大模型回答錯誤可能是沒有跟人類的需求對齊。(@ 愛範兒 )

02 有態度的觀點

1、騰訊首席科學家張正友:僅把大模型塞進機器人產生不了真正的具身智慧

騰訊首席科學家張正友在「AI 時代的人機關係展望」論壇上介紹了 Robotics X 實驗室基於「層次化」控制研發智慧機器人的進展,以及人機共生時代的經濟發展機遇與應對策略。他認為長遠來看,智慧機器人會走進千家萬戶,尤其在康復養老、個性化教育等領域帶來變化。他強調智慧機器人需要有複雜的感知能力、強大的執行能力、學習能力和自適應能力等,以用於安全地生活在人類環境中並在遵循道德和法律規範的前提下,有效地服務人類。他分享了實驗室的研究成果,如讓機器狗學會真狗的運動方式和讓機器人自主完成複雜任務等。(@ 騰訊研究院)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章