微軟 Azure 推出文字到語音虛擬人;英偉達釋出 8B 小語言模型,可在 RTX 工作站部署丨 RTE 開發者日報

RTE开发者社区發表於2024-08-23

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的 會議 」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、英偉達釋出 80 億引數新 AI 模型:精度、效率高,可在 RTX 工作站上部署

英偉達釋出了 Mistral-NeMo-Minitron 8B 小語言 AI 模型,共 80 億個引數,具備精度高、計算效率高等優點,可在 GPU 加速的資料中心、雲和搭載英偉達 RTX 顯示卡的工作站上執行。

英偉達表示透過寬度剪枝(width-pruning)Mistral NeMo 12B,並知識蒸餾(knowledge distillation)輕度重新訓練後獲得 Mistral-NeMo-Minitron 8B,相關成果發表在《Compact Language Models via Pruning and Knowledge Distillation》論文中。

剪枝透過去除對準確率貢獻最小的模型權重來縮小神經網路。在「蒸餾」過程中,研究小組在一個小型資料集上重新訓練剪枝後的模型,以顯著提高透過剪枝過程而降低的準確率。

就其規模而言,Mistral-NeMo-Minitron 8B 在語言模型的九項流行基準測試中遙遙領先。這些基準涵蓋了各種任務,包括語言理解、常識推理、數學推理、總結、編碼和生成真實答案的能力。(@IT 之家)

2、微軟 Azure AI 語音服務推出虛擬人形象,支援文字轉影片

微軟 Azure AI 語音服務允許開發者構建多語言生成式 AI 語音應用,Azure AI 語音服務最新推出了文字到語音虛擬人功能,可以將簡單的文字轉換為人類自然說話影片。

8 月 22 日,微軟宣佈全面推出 Text to Speech Avatar 功能。這項新功能使開發者能夠為其使用者建立個性化虛擬人。該服務的輸出影片解析度為 1920 x 1080,每秒 25 幀。

Text to Speech Avatar 具有以下功能:

  • 將文字轉換為由 Azure AI 文字轉語音提供支援的人類說話影片,該影片具有自然的聲音。
  • 提供不同的人物預設形象。
  • 形象的聲音由 Azure AI 文字轉語音生成。
  • 使用批次合成 API 非同步或實時合成文字到語音人像影片。
  • 在 Speech Studio 中提供內容建立工具,無需編碼即可建立影片內容。
  • 透過 Speech Studio 中的實時聊天頭像工具啟用實時人像對話。

定價方面,文字轉影片服務的收費將根據影片輸出的長度計算並按秒收費。該服務現已在東南亞、北歐、西歐、瑞典中部、美國中南部和美國西部地區推出。(@IT 之家)

3、Ideogram 釋出 2.0 全新版本,寫實風格顯著提升,接近真實照片,還能生成網頁設計頁面

Ideogram 釋出 Ideogram 2.0 版本,這是一款功能強大的文字轉影像模型,具有行業領先的生成真實影像、平面設計、排版等能力。

Ideogram 2.0 具有以下主要功能特點:

多種影像風格選擇:

  • 現實主義風格:能夠生成高度逼真的影像,紋理和細節(如皮膚和頭髮)都非常接近真實照片
  • 設計風格:強化了文字的準確性,非常適合製作帶有長文字的圖形設計,如賀卡、海報和社交媒體內容
  • 3D 風格: 支援生成三維立體感較強的影像
  • 動漫風格:專為生成動畫或卡通風格的影像而設計

靈活的影像生成:

  • 任意寬高比:支援各種寬高比的影像生成,包括 3:1 和 1:3 等非傳統比例
  • 顏色調控:使用者可以指定顏色調色盤,以便在生成的影像中保持一致的視覺風格,適用於藝術控制和品牌一致性

高階影像生成工具:

  • Magic Prompt: 自動生成創意性的提示詞,幫助使用者更輕鬆地開始創作
  • Describe 功能:根據已有影像生成詳細的文字提示,以此為基礎建立新的影像

API 與移動端支援:

  • Ideogram API: 開發者可以透過 API 將 Ideogram 的影像生成能力整合到他們的應用中,並且相比其他同類產品,價格更具競爭力
  • iOS 應用:提供了移動端應用程式,使用者可以隨時隨地生成影像(Android 版本將在稍後推出)

龐大的影像庫搜尋:

  • 使用者可以透過文字搜尋訪問超過 10 億張公開生成的影像,找到靈感並探索他人的創作

(@ 小互 AI)

4、馬斯克點贊可靈 AI

8 月 20 日,AI 插畫藝術愛好者 Déborah 在推特上釋出了一段由可靈 AI 完成、時長為五秒鐘的影片。這條影片獲得了埃隆·馬斯克的關注,並且他在評論區回覆「AI Entertainment is happening fast」。

可靈 AI 作為快手自研的影片生成大模型,自今年 6 月初發布以來便受到了國內外的廣泛關注和好評。市場分析機構摩根士丹利公開評論:「可靈 AI 的表現要比抖音和騰訊過往釋出的影片生成模型都更加優秀。」

從影片生成效果本身來看,可靈 AI 不僅能夠模擬物理世界特性,還具備了強大的概念組合能力和想象力,生成的影片解析度高達 1080p,時長最高可達 2 分鐘。

6 月 21 日,可靈 AI 正式推出圖生影片功能,支援用任意靜態影像生成 5s 影片,並且可搭配不同的文字內容,實現豐富的視覺敘事 。馬斯克點讚的影片,也是出自可靈 AI 這一核心爆款功能。在海外,快手的圖生影片得到了廣泛的使用。被點贊影片的作者 Déborah 也多次用可靈 AI 製作影片 。

7 月 6 日,在上海舉行的 2024 世界人工智慧大會上,可靈 AI 正式上線了網頁端,推出了更加清晰的高畫質版,在影片處理的精細度上有了大幅提升。其中,首尾幀控制、鏡頭控制等新功能也一起上線,並且創作者單次生成的文生影片時長也增加至 10 秒。

7 月底,可靈 AI 大模型全面開放內測,並正式面向全球上線會員體系,針對不同類別的會員,提供相應的專屬功能服務。(@AI 科技評論)

5、原 Character.AI CEO 諾姆・沙澤爾將任谷歌 Gemini 聯合技術負責人

根據谷歌傳送給員工的訊息,本月重返谷歌的 Character.AI 聯合創始人兼原 CEO 諾姆・沙澤爾(Noam Shazeer)將擔任谷歌 AI 專案 Gemini 的聯合技術負責人。

沙澤爾將與谷歌長期從事人工智慧研究的傑夫・迪恩(Jeff Dean)和奧里奧爾・維尼亞爾斯(Oriol Vinyals)一起開發 Gemini,其目標是與 OpenAI 的大語言模型 GPT 競爭。

本月初,初創公司 Character.AI 宣佈,該公司已與谷歌母公司 Alphabet 簽署了一項協議,授予這家搜尋引擎巨頭非獨家使用其大型語言模型的許可。Character.AI 聯合創始人諾姆・沙澤爾和丹尼爾・德・弗雷塔斯將重返谷歌,谷歌發言人曾宣佈沙澤爾將加入 DeepMind 研究團隊。(@IT 之家)

02 有態度的觀點

1、Rippleing 創始人:你的公司 AI washing 了嗎?

Rippling 創始人 Parker Conrad 對於 AI 技術的實際應用持懷疑態度,認為許多軟體公司在產品中新增了新穎但不實用的 AI 功能。他指出,目前 AI 世界中存在大量無關緊要的東西,儘管 AI 有潛力帶來變革,但他對目前所見的 AI 功能並不印象深刻。

Conrad 理解為什麼公司會聲稱其產品具有 AI 功能,因為這可以提高公司的市場估值。資料顯示,AI 公司在美國的投資中佔有重要比重,超過 40% 的新獨角獸企業是 AI 初創企業。Parkway Venture Capital 的管理合夥人 Nekeshia Woods 認為 AI 正在成為企業自動化日常任務的方式,並預計 AI 助手和通用機器人將在未來出現。
Conrad 認為 AI 的強大在於其能力在處理大量非結構化資訊,幫助公司更好地瞭解其業務。儘管存在 AI 疲勞現象,但人們對 AI 的問題正在增加,投資者和創始人開始關注對人工智慧的大量投資何時能獲得回報。Conrad 對 AI 的未來保持觀望態度。(@AI 科技評論)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章