11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報

RTE开发者社区發表於2024-11-20

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、阿里雲釋出逆天大模型 Qwen2.5-Turbo 一口氣讀完十本小說,推理速度提升 4.3 倍!

阿里雲重磅推出全新升級的 Qwen2.5-Turbo 大語言模型,其上下文長度突破至驚人的 100 萬 Token。相當於 10 部《三體》,150 小時的語音轉錄或 3 萬行程式碼的容量。「一口氣讀完十本小說」不再是夢。

Qwen2.5-Turbo 模型在 Passkey Retrieval 任務中實現了 100% 的準確率,並且在長文字理解能力方面超越了 GPT-4 等同類模型。該模型在 RULER 長文字基準測試中取得了 93.1 的高分,而 GPT-4 的得分僅為 91.6,GLM4-9B-1M 的得分則為 89.9。

除了超長文字處理能力,Qwen2.5-Turbo 還兼具短文字處理的精準性,在短文字基準測試中,其效能表現與 GPT-4o-mini 和 Qwen2.5-14B-Instruct 模型相當。

透過採用稀疏注意力機制,Qwen2.5-Turbo 模型將處理 100 萬 Token 的首次 token 時間從 4.9 分鐘縮短至 68 秒,實現了 4.3 倍的推理速度提升。

同時,處理 100 萬 Token 的費用僅為 0.3 元人民幣,與 GPT-4o-mini 相比,在相同成本下可以處理 3.6 倍的內容。

阿里云為 Qwen2.5-Turbo 模型準備了一系列演示,展示了其在深度理解長篇小說、程式碼輔助和多篇論文閱讀等方面的應用。例如,使用者上傳了包含 69 萬 Token 的《三體》三部曲中文小說後,模型成功地用英文概括了每部小說的情節。

使用者可以透過阿里雲模型工作室的 API 服務、HuggingFace Demo 或 ModelScope Demo 體驗 Qwen2.5-Turbo 模型的強大功能。(@AIbase 基地)

2、訊息稱騰訊傑出科學家、混元大模型技術負責人之一劉威離職

據報導,騰訊傑出科學家、騰訊混元大模型技術負責人之一劉威,目前已經從騰訊離職。

今年 5 月,劉威以混元大模型技術負責人之一的身份,出席 InfoQ 舉辦的 AICon 全球人工智慧開發與應用大會並發表了《騰訊混元大模型技術和應用實踐》的主題演講。今年 9 月,他還在 2024 外灘新媒體年會上發表了題為《生成式 AI 的發展與騰訊混元大模型的實踐》的主旨演講。

劉威曾先後獲得 2011 年底 Facebook 博士研究生獎學金、2013 年度哥倫比亞大學優秀博士論文獎、2014 年度計算機視覺與模式識別國際會議(CVPR)青年研究者獎、2016 年度國際資訊檢索大會(SIGIR)最優論文榮譽獎。

劉威多次擔任國際權威期刊的客座編委與審稿人,自 2007 年起一直擔任國際頂級會議 NIPS、CVPR、ICCV 等的程式委員成員,擔任第四屆自然語言處理與漢語計算會議 NLPCC 2015 的領域主席,並自 2014 年起擔任美國自然科學基金資訊與智慧系統分部(NSF IIS Division)的研究專案評審。(@ 極客公園)

3、餘承東首秀華為 Mate 70 Pro+ 真機外觀,「金絲銀錦」配色特別後蓋材質

華為 Mate 70 / Pro / Pro+ 系列旗艦手機將於 11 月 26 日正式釋出,目前已開啟預約。

華為常務董事、終端 BG 董事長、智慧汽車解決方案 BU 董事長餘承東在微信影片號首次曬出了 Mate 70 Pro+ 的真機。

餘承東介紹稱,這款新機配色名為「金絲銀錦」,並稱「後蓋材質很特別」。

從圖中可以看到,這款手機的後蓋在光線下呈現出斜向拉絲紋理。(@ 極客公園)

02 有亮點的產品

1、ElevenLabs 全新功能上線,支援打造個性化對話式 AI 智慧體了

ElevenLabs 近日宣佈推出使用者可以構建完整對話式 AI 智慧體的新功能。

使用者現在可以在 ElevenLabs 的開發者平臺上,依據自己的需求,定製對話智慧體的多種變數,比如語音語調和回覆長度。

ElevenLabs 過去主要提供不同的語音和文字轉語音服務。公司增長主管 Sam Sklar 在接受 TechCrunch 採訪時表示,許多客戶早已在使用該平臺建立對話式 AI 智慧體。但在整合知識庫和處理客戶中斷方面是最大的挑戰。因此,ElevenLabs 決定構建一個完整的對話機器人管道,以便簡化這一過程。

使用者可以透過登入 ElevenLabs 賬號,選擇模板或建立新專案來開始構建對話智慧體。他們可以選擇智慧體的主要語言、首條訊息和系統提示,以確定智慧體的個性。

此外,開發者還需選擇大型語言模型(如 Gemini、GPT 或 Claude)、響應的溫度(決定創意性)以及令牌使用限制。

使用者還可以根據自己的需求新增知識庫,如檔案、URL 或文字塊,以增強對話機器人的能力。同時,他們可以將自己的自定義大型語言模型與該機器人整合。ElevenLabs 的 SDK 相容 Python、JavaScript、React 和 Swift,此外,該公司還提供 WebSocket API,便於進一步定製。

公司還允許使用者定義資料收集標準,例如與智慧體對話的客戶姓名和電子郵件,並使用自然語言定義通話的成功與否評估標準。(@AIbase 基地)

2、AnyChat:一鍵切換多種 AI 模型,ChatGPT、Claude、Gemini 隨便挑

在人工智慧技術迅速發展的背景下,開發者們迫切需要一個能夠靈活應用多種大型語言模型(LLM)的平臺。近期推出的 AnyChat 將多個領先的 AI 模型整合到一個統一的介面上,極大地方便了開發者和企業的使用。

AnyChat 由知名 AI 專家 Ahsen Khaliq(AK)開發,他目前在 Gradio 擔任機器學習增長負責人。該平臺支援開發者在 ChatGPT、谷歌的 Gemini、Claude、Meta 的 LLaMA 以及 Grok 等多個模型之間無縫切換,擺脫了被單一服務提供商鎖定的困境。Khaliq 表示:「我們希望構建一個讓使用者對模型使用擁有完全控制的平臺。」

AnyChat 的核心設計旨在降低開發者的使用門檻,使其能夠方便地嘗試和部署不同的語言模型。透過友好的選項卡介面和下拉選單,使用者可以輕鬆選擇具體的模型和版本。對於需要付費 API 金鑰的模型,開發者可以輸入自己的憑證,而部分基礎模型則可以使用 Khaliq 提供的免費金鑰,免去複雜的註冊過程。

AnyChat 還注重對開源模型的支援,開發者可以在 Hugging Face 平臺上使用更多開源選項,從而避免高昂的 API 費用。Khaliq 強調,AnyChat 的設計理念是讓所有開發者都有機會接觸到不同的模型,而不僅僅是依賴於商業服務。(@AIbase 基地)

3、AI 搜尋獨角獸 Perplexity 進軍電商

AI 驅動搜尋引擎 Perplexity 宣佈進軍電子商務領域,為美國付費客戶推出了新的購物功能,這使得使用者能夠在 Perplexity 的搜尋結果中直接獲得購物推薦,並具備無需訪問零售商網站即可下訂單的能力。

這一服務透過展示包含產品詳情、價格、賣家資訊和簡短描述的視覺卡片,提供了一種更加直觀的購物體驗。Perplexity 還允許使用者儲存地址和信用卡資訊以簡化結賬流程,併為 Pro 訂閱者提供免費運費服務。

此外,Perplexity 推出了商家計劃,參與的商家將獲得更完整的資訊索引,提高成為推薦產品的機會,並且商家可以免費獲得 API 訪問許可權,在自己的網站上提供搜尋功能。

Perplexity 強調,其搜尋引擎的推薦是無偏見的,因為沒有贊助位置,這一新功能得益於與包括 Shopify 在內的賣家網站的整合。

隨著大型語言模型的出現,Perplexity 等公司正在利用 AI 提供更好的購物搜尋選項,以期改善電子商務搜尋體驗,同時確保消除隱性偏見和優待,以建立使用者信任。(@ APPSO)

4、微軟推出 Copilot Actions,使用人工智慧自動執行重複性任務

微軟在昨日(11 月 19 日)舉辦的 Ignite 大會上宣佈了一系列新功能,旨在進一步提升 Microsoft 365 Copilot 的智慧化水平。

其中最引人注目的是 Copilot Actions,該功能現已進入私人預覽階段。這項功能允許使用者透過簡單的提示,自動完成重複性的日常任務,如總結 Teams 會議、生成周報、甚至準備會議材料等。Copilot Actions 被設計成使用者只需一次性設定,即可讓 AI 自動執行任務,就像一個強大的 AI 宏一樣,根據預設的模板和規則自動完成工作。

此外,微軟也在不斷最佳化 Microsoft 365 Copilot 在各 Office 應用中的表現。明年年初,PowerPoint 使用者將能夠將簡報翻譯成 40 多種語言。而 PowerPoint 的 Copilot Narrative Builder 也將能夠利用品牌模板、演講者筆記、內建過渡和動畫等元素來建立更好的簡報初稿。Copilot 還將能夠從 SharePoint 中提取影像,並將其整合到 PowerPoint 簡報中。

Excel 中的 Copilot 也即將推出新的啟動體驗,能夠根據使用者需求建議合適的模板,包括標題、公式和視覺化圖表,幫助使用者快速建立電子表格。此外,微軟還在改進 Outlook 中的 Copilot,使其能夠更好地與同事安排一對一會議,並生成會議議程。這項功能將於本月底面向 Copilot in Outlook 使用者推出。

除了上述功能升級外,微軟還將 AI 代理引入 SharePoint,以幫助使用者總結文件、查詢跨 SharePoint 檔案的資料,並建立自定義代理,以處理有關特定 SharePoint 站點或檔案列表的 AI 響應。此前,微軟已開始向企業推銷銷售、服務和財務領域的 Copilot 代理,此次 SharePoint 的整合進一步擴大了 AI 代理的應用範圍。(@IT 之家)

03 有態度的觀點

1、王詩沐:創業應優先考慮技術創新

在與「Founder Park」的深度訪談中,王詩沐分享了他對 SEELE 公司及其產品的願景,強調技術創新在產品創新中的重要性,並認為 AI、3D 和區塊鏈技術分別對應生產力、介質和生產關係。

王詩沐認為技術創新是創業的關鍵,他透過 SEELE 公司專注於 AI 生成 3D 遊戲,旨在透過分階段的產品驗證使用者需求,逐步實現技術與產品的融合。

王詩沐強調,儘管 3D AI 技術尚不成熟,但 SEELE 選擇推出面向 C 端的產品以積累資料和迭代演算法。他表示 SEELE 的產品不僅僅是聊天陪伴,而是 3D 互動娛樂,計劃未來推出更復雜的互動娛樂產品。

王詩沐還討論了 C.AI 產品的侷限性和未來發展方向,認為 C.AI 驗證了使用者對情感互動的需求,並定義了人與 AI 基本互動形式。他將人與 AI 的互動視為一種社交形式,並認為 AI 技術的發展將帶來新的社交體驗。

此外,王詩沐提到 SEELE 的產品將服務於 AI 和 UGC,旨在降低高質量互動娛樂內容的生產門檻,讓使用者輕鬆創作個性化內容。最後,他分享了自己對創業的看法,認為創業不僅是為了財富,更是為了實現對世界、使用者和產品的理解和思考。(@ APPSO)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章