11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、阿里雲釋出逆天大模型 Qwen2.5-Turbo 一口氣讀完十本小說,推理速度提升 4.3 倍!
阿里雲重磅推出全新升級的 Qwen2.5-Turbo 大語言模型,其上下文長度突破至驚人的 100 萬 Token。相當於 10 部《三體》,150 小時的語音轉錄或 3 萬行程式碼的容量。「一口氣讀完十本小說」不再是夢。
Qwen2.5-Turbo 模型在 Passkey Retrieval 任務中實現了 100% 的準確率,並且在長文字理解能力方面超越了 GPT-4 等同類模型。該模型在 RULER 長文字基準測試中取得了 93.1 的高分,而 GPT-4 的得分僅為 91.6,GLM4-9B-1M 的得分則為 89.9。
除了超長文字處理能力,Qwen2.5-Turbo 還兼具短文字處理的精準性,在短文字基準測試中,其效能表現與 GPT-4o-mini 和 Qwen2.5-14B-Instruct 模型相當。
透過採用稀疏注意力機制,Qwen2.5-Turbo 模型將處理 100 萬 Token 的首次 token 時間從 4.9 分鐘縮短至 68 秒,實現了 4.3 倍的推理速度提升。
同時,處理 100 萬 Token 的費用僅為 0.3 元人民幣,與 GPT-4o-mini 相比,在相同成本下可以處理 3.6 倍的內容。
阿里云為 Qwen2.5-Turbo 模型準備了一系列演示,展示了其在深度理解長篇小說、程式碼輔助和多篇論文閱讀等方面的應用。例如,使用者上傳了包含 69 萬 Token 的《三體》三部曲中文小說後,模型成功地用英文概括了每部小說的情節。
使用者可以透過阿里雲模型工作室的 API 服務、HuggingFace Demo 或 ModelScope Demo 體驗 Qwen2.5-Turbo 模型的強大功能。(@AIbase 基地)
2、訊息稱騰訊傑出科學家、混元大模型技術負責人之一劉威離職
據報導,騰訊傑出科學家、騰訊混元大模型技術負責人之一劉威,目前已經從騰訊離職。
今年 5 月,劉威以混元大模型技術負責人之一的身份,出席 InfoQ 舉辦的 AICon 全球人工智慧開發與應用大會並發表了《騰訊混元大模型技術和應用實踐》的主題演講。今年 9 月,他還在 2024 外灘新媒體年會上發表了題為《生成式 AI 的發展與騰訊混元大模型的實踐》的主旨演講。
劉威曾先後獲得 2011 年底 Facebook 博士研究生獎學金、2013 年度哥倫比亞大學優秀博士論文獎、2014 年度計算機視覺與模式識別國際會議(CVPR)青年研究者獎、2016 年度國際資訊檢索大會(SIGIR)最優論文榮譽獎。
劉威多次擔任國際權威期刊的客座編委與審稿人,自 2007 年起一直擔任國際頂級會議 NIPS、CVPR、ICCV 等的程式委員成員,擔任第四屆自然語言處理與漢語計算會議 NLPCC 2015 的領域主席,並自 2014 年起擔任美國自然科學基金資訊與智慧系統分部(NSF IIS Division)的研究專案評審。(@ 極客公園)
3、餘承東首秀華為 Mate 70 Pro+ 真機外觀,「金絲銀錦」配色特別後蓋材質
華為 Mate 70 / Pro / Pro+ 系列旗艦手機將於 11 月 26 日正式釋出,目前已開啟預約。
華為常務董事、終端 BG 董事長、智慧汽車解決方案 BU 董事長餘承東在微信影片號首次曬出了 Mate 70 Pro+ 的真機。
餘承東介紹稱,這款新機配色名為「金絲銀錦」,並稱「後蓋材質很特別」。
從圖中可以看到,這款手機的後蓋在光線下呈現出斜向拉絲紋理。(@ 極客公園)
02 有亮點的產品
1、ElevenLabs 全新功能上線,支援打造個性化對話式 AI 智慧體了
ElevenLabs 近日宣佈推出使用者可以構建完整對話式 AI 智慧體的新功能。
使用者現在可以在 ElevenLabs 的開發者平臺上,依據自己的需求,定製對話智慧體的多種變數,比如語音語調和回覆長度。
ElevenLabs 過去主要提供不同的語音和文字轉語音服務。公司增長主管 Sam Sklar 在接受 TechCrunch 採訪時表示,許多客戶早已在使用該平臺建立對話式 AI 智慧體。但在整合知識庫和處理客戶中斷方面是最大的挑戰。因此,ElevenLabs 決定構建一個完整的對話機器人管道,以便簡化這一過程。
使用者可以透過登入 ElevenLabs 賬號,選擇模板或建立新專案來開始構建對話智慧體。他們可以選擇智慧體的主要語言、首條訊息和系統提示,以確定智慧體的個性。
此外,開發者還需選擇大型語言模型(如 Gemini、GPT 或 Claude)、響應的溫度(決定創意性)以及令牌使用限制。
使用者還可以根據自己的需求新增知識庫,如檔案、URL 或文字塊,以增強對話機器人的能力。同時,他們可以將自己的自定義大型語言模型與該機器人整合。ElevenLabs 的 SDK 相容 Python、JavaScript、React 和 Swift,此外,該公司還提供 WebSocket API,便於進一步定製。
公司還允許使用者定義資料收集標準,例如與智慧體對話的客戶姓名和電子郵件,並使用自然語言定義通話的成功與否評估標準。(@AIbase 基地)
2、AnyChat:一鍵切換多種 AI 模型,ChatGPT、Claude、Gemini 隨便挑
在人工智慧技術迅速發展的背景下,開發者們迫切需要一個能夠靈活應用多種大型語言模型(LLM)的平臺。近期推出的 AnyChat 將多個領先的 AI 模型整合到一個統一的介面上,極大地方便了開發者和企業的使用。
AnyChat 由知名 AI 專家 Ahsen Khaliq(AK)開發,他目前在 Gradio 擔任機器學習增長負責人。該平臺支援開發者在 ChatGPT、谷歌的 Gemini、Claude、Meta 的 LLaMA 以及 Grok 等多個模型之間無縫切換,擺脫了被單一服務提供商鎖定的困境。Khaliq 表示:「我們希望構建一個讓使用者對模型使用擁有完全控制的平臺。」
AnyChat 的核心設計旨在降低開發者的使用門檻,使其能夠方便地嘗試和部署不同的語言模型。透過友好的選項卡介面和下拉選單,使用者可以輕鬆選擇具體的模型和版本。對於需要付費 API 金鑰的模型,開發者可以輸入自己的憑證,而部分基礎模型則可以使用 Khaliq 提供的免費金鑰,免去複雜的註冊過程。
AnyChat 還注重對開源模型的支援,開發者可以在 Hugging Face 平臺上使用更多開源選項,從而避免高昂的 API 費用。Khaliq 強調,AnyChat 的設計理念是讓所有開發者都有機會接觸到不同的模型,而不僅僅是依賴於商業服務。(@AIbase 基地)
3、AI 搜尋獨角獸 Perplexity 進軍電商
AI 驅動搜尋引擎 Perplexity 宣佈進軍電子商務領域,為美國付費客戶推出了新的購物功能,這使得使用者能夠在 Perplexity 的搜尋結果中直接獲得購物推薦,並具備無需訪問零售商網站即可下訂單的能力。
這一服務透過展示包含產品詳情、價格、賣家資訊和簡短描述的視覺卡片,提供了一種更加直觀的購物體驗。Perplexity 還允許使用者儲存地址和信用卡資訊以簡化結賬流程,併為 Pro 訂閱者提供免費運費服務。
此外,Perplexity 推出了商家計劃,參與的商家將獲得更完整的資訊索引,提高成為推薦產品的機會,並且商家可以免費獲得 API 訪問許可權,在自己的網站上提供搜尋功能。
Perplexity 強調,其搜尋引擎的推薦是無偏見的,因為沒有贊助位置,這一新功能得益於與包括 Shopify 在內的賣家網站的整合。
隨著大型語言模型的出現,Perplexity 等公司正在利用 AI 提供更好的購物搜尋選項,以期改善電子商務搜尋體驗,同時確保消除隱性偏見和優待,以建立使用者信任。(@ APPSO)
4、微軟推出 Copilot Actions,使用人工智慧自動執行重複性任務
微軟在昨日(11 月 19 日)舉辦的 Ignite 大會上宣佈了一系列新功能,旨在進一步提升 Microsoft 365 Copilot 的智慧化水平。
其中最引人注目的是 Copilot Actions,該功能現已進入私人預覽階段。這項功能允許使用者透過簡單的提示,自動完成重複性的日常任務,如總結 Teams 會議、生成周報、甚至準備會議材料等。Copilot Actions 被設計成使用者只需一次性設定,即可讓 AI 自動執行任務,就像一個強大的 AI 宏一樣,根據預設的模板和規則自動完成工作。
此外,微軟也在不斷最佳化 Microsoft 365 Copilot 在各 Office 應用中的表現。明年年初,PowerPoint 使用者將能夠將簡報翻譯成 40 多種語言。而 PowerPoint 的 Copilot Narrative Builder 也將能夠利用品牌模板、演講者筆記、內建過渡和動畫等元素來建立更好的簡報初稿。Copilot 還將能夠從 SharePoint 中提取影像,並將其整合到 PowerPoint 簡報中。
Excel 中的 Copilot 也即將推出新的啟動體驗,能夠根據使用者需求建議合適的模板,包括標題、公式和視覺化圖表,幫助使用者快速建立電子表格。此外,微軟還在改進 Outlook 中的 Copilot,使其能夠更好地與同事安排一對一會議,並生成會議議程。這項功能將於本月底面向 Copilot in Outlook 使用者推出。
除了上述功能升級外,微軟還將 AI 代理引入 SharePoint,以幫助使用者總結文件、查詢跨 SharePoint 檔案的資料,並建立自定義代理,以處理有關特定 SharePoint 站點或檔案列表的 AI 響應。此前,微軟已開始向企業推銷銷售、服務和財務領域的 Copilot 代理,此次 SharePoint 的整合進一步擴大了 AI 代理的應用範圍。(@IT 之家)
03 有態度的觀點
1、王詩沐:創業應優先考慮技術創新
在與「Founder Park」的深度訪談中,王詩沐分享了他對 SEELE 公司及其產品的願景,強調技術創新在產品創新中的重要性,並認為 AI、3D 和區塊鏈技術分別對應生產力、介質和生產關係。
王詩沐認為技術創新是創業的關鍵,他透過 SEELE 公司專注於 AI 生成 3D 遊戲,旨在透過分階段的產品驗證使用者需求,逐步實現技術與產品的融合。
王詩沐強調,儘管 3D AI 技術尚不成熟,但 SEELE 選擇推出面向 C 端的產品以積累資料和迭代演算法。他表示 SEELE 的產品不僅僅是聊天陪伴,而是 3D 互動娛樂,計劃未來推出更復雜的互動娛樂產品。
王詩沐還討論了 C.AI 產品的侷限性和未來發展方向,認為 C.AI 驗證了使用者對情感互動的需求,並定義了人與 AI 基本互動形式。他將人與 AI 的互動視為一種社交形式,並認為 AI 技術的發展將帶來新的社交體驗。
此外,王詩沐提到 SEELE 的產品將服務於 AI 和 UGC,旨在降低高質量互動娛樂內容的生產門檻,讓使用者輕鬆創作個性化內容。最後,他分享了自己對創業的看法,認為創業不僅是為了財富,更是為了實現對世界、使用者和產品的理解和思考。(@ APPSO)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- 位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報模型AIGo開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- OpenAI推出ChatGPT對話式AI模型OpenAIChatGPT模型
- Mini-Omni:具有實時對話能力的多模態模型;狨猴會用名字稱呼彼此 丨 RTE 開發者日報模型開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- 提升AI智慧化水平,打造智慧新體驗AI
- 阿里釋出革新的音訊多模態模型 Qwen2-Audio;月之暗面回應大模型顯示「9.11 大於 9.9」丨 RTE 開發者日報阿里音訊大模型開發者日報
- 基於 Groq 和 Cartesia 的高速 AI 語音助手釋出;xAI 將自行打造超級計算機丨 RTE 開發者日報AI計算機開發者日報
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- 《阿凡達》導演卡梅隆加入 Stability AI 董事會;Molmo 橫空出世,開源多模態模型王座易位丨 RTE 開發者日報AI模型開發者日報
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- 蘋果開源高效語言模型 OpenELM;全球首個 AI 基因編輯器開源丨 RTE 開發者日報 Vol.192蘋果模型AI開發者日報
- 零一萬物 Yi-Lightning:超越 GPT-4o 衝擊全球榜單;阿里國際 Marco 翻譯大模型釋出丨 RTE 開發者日報GPT阿里大模型開發者日報
- 星紀魅族宣佈 All in AI;歐盟將首次對蘋果處以罰款丨 RTE 開發者日報 Vol.146AI蘋果開發者日報
- 斯嘉麗·約翰遜指控 OpenAI 非法使用其聲音;微軟推出 AI 工具「回顧」(Recall)丨 RTE 開發者日報 Vol.208OpenAI微軟開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 中國 10 億引數規模以上大模型數量已超 100 個;GitHub 推出程式碼自動修復工具丨 RTE 開發者日報 Vol.172大模型Github開發者日報
- QQ 測試 AI 聊天搭子,再戰 AI 社交;零一萬物宣佈開源 Yi-9B 模型丨 RTE 開發者日報 Vol.159AI模型開發者日報
- 亞馬遜秘密研發 AI 對標 ChatGPT;語音 AI 未來五年或將釋放 100 億美元市場 丨 RTE 開發者日報亞馬遜AIChatGPT開發者日報
- OpenAI 再發 Sora 新短片,傳 Sora 兩週內推出;李飛飛團隊出品空間智慧版 ImageNet 丨 RTE 開發者日報OpenAISora開發者日報
- ElevenLabs Voice Design :可透過文字建立個性化語音;蘋果推出首個開發者測試版丨 RTE 開發者日報蘋果開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- RTE 大會報名丨智慧編解碼和 AI 生成影片 ,RTE2024 技術專場第五彈!AI
- 微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報微軟模型開發者日報