位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報

RTE开发者社区發表於2024-11-12

開發者朋友們大家好:

這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。

本期編輯:@SSN,@ 鮑勃

01 有話題的新聞

1、位元組新模型 SeedEdit 開啟測試:一句話輕鬆 P 圖

位元組跳動於 11 月 11 日推出了其最新影像編輯模型 SeedEdit,成為國內首個產品化的通用影像編輯工具。使用者只需輸入一句簡單的自然語言指令,即可實現對圖片的背景更換、風格轉換以及元素的增刪替換,無需繁瑣的描邊和塗抹。

SeedEdit 在識別指令方面表現出色,能夠精準理解中文和英文提示,包括成語及專有名詞。例如,使用者只需輸入「把西瓜換成葡萄」,SeedEdit 便能快速完成上個與水果替換。

此外,模型在處理細節時也保持了原圖的完整性,例如移除玻璃裂紋或改變影像中的特定元素。

作為一款通用影像編輯模型,SeedEdit 不僅支援單次編輯,還允許多輪創意操作。使用者可以對同一影像進行連續編輯,創造出多樣化的效果。

報告顯示,SeedEdit 依然採用了 Diffusion 架構,但在不引入新引數的情況下將影像生成模型轉換成了影像編輯模型。其秘訣是在保持原始影像和生成新內容之間尋找平衡,最終得以在影像編輯的通用性、可控性和高質量上實現新的突破。解決了傳統 AI 影像編輯中存在的多個痛點。

據瞭解,SeedEdit 已在豆包 PC 端和即夢 AI 上線網頁端開始測試,使用者可以透過簡單的指令實現高效的影像編輯。與 Dall・E3 和 Midjourney 等競爭對手相比,SeedEdit 在編輯的便捷性和響應精準度上更具優勢。(@AIbase 基地)

2、Suno 釋出 V4 音樂生成模型音訊演示影片,音質和風格大提升

近日,Suno 公司釋出了其最新的 v4 音樂生成模型的音訊樣本。這些演示音訊展現了與之前版本相比,音質、音色多樣性和一致性都有了顯著提升。

Suno 的 v4 模型透過深度學習技術對大量音樂資料進行訓練,旨在生成更自然、更豐富的音樂作品。與以往版本相比,v4 模型在音訊合成方面的表現更為出色,能產生更具表現力的樂曲,增強了音樂的情感表達。聽眾在試聽樣本時,能夠明顯感受到音質的細膩程度和旋律的流暢性,給人以耳目一新的體驗。

為了使這一新模型的功能更為全面,Suno 還對音樂的多樣性進行了最佳化。透過對不同風格和流派的音樂資料進行學習,v4 模型能夠生成多種風格的音樂,滿足不同聽眾的需求。

此外,模型在保持音樂一致性方面也有所改進,無論是在旋律、節奏還是和聲方面,v4 都能夠保持高度的協調性。

這一系列的改進使得 Suno 的 v4 音樂生成模型不僅適用於個人創作,還可以被廣泛應用於商業音樂製作、遊戲音樂及其他需要背景音樂的場合。Suno 希望透過這一創新,能夠推動 AI 音樂生成技術的進一步普及和應用。(@AIbase 基地)

3、X 正在測試 AI 聊天機器人 Grok 的免費版本

據 TechCruch 報導, X 一直將其 AI 聊天機器人 Grok 限制給高階付費使用者使用。

不過,X 似乎正準備向免費使用者開放聊天機器人。

上個週末,有部分應用研究人員和使用者釋出了有關聊天機器人 Grok 免費版將向特定地區使用者開放的訊息。據研究人員表示,目前免費的使用次數有限制:Grok-2 模型每兩小時 10 次查詢,Grok-2 mini 模型每兩小時 20 次查詢,每天三個影像分析問題。

報導指出,要免費使用 Grok,使用者的帳戶必須至少有七天的歷史並且與其關聯的電話號碼。(@APPSO)

4、Google 正式推出 Gemini AI 驅動的影片演示應用 Vids, 透過簡單提示即可生成影片演示

Google 正式推出了其 Gemini AI 驅動的影片演示應用程式 Vids,使用者可以透過簡單的提示生成影片演示。

Vids 整合了 Gemini 的生成式 AI 功能,使用者只需提供提示或 Google Drive 中的文件,系統即可生成一個初始影片故事板,包括推薦的場景、指令碼、背景音樂等。使用者可以透過「Help me create」功能快速獲取一個編輯草稿,大大簡化了影片製作過程。

Vids 還支援語音旁白,可以選擇 Gemini 的預設 AI 語音或錄製自己的語音。系統還包含滾動式提詞器,幫助使用者在錄製過程中自然流暢地呈現資訊。此外,使用者可以新增自己的影片、螢幕錄製和音訊錄製,以便製作多樣化的影片內容。

Vids 的主要功能包括自動插入素材影片、生成指令碼、以及建立 AI 語音旁白,使用者無需親自錄音。Google 表示該工具可用於將客戶支援文章轉化為影片、製作培訓影片、釋出公司公告、生成會議回顧等。(@ 小互 AI)

5、月之暗面創始人被前公司投資人提起仲裁,受理律師回應將提出抗辯

月之暗面創始人楊植麟、聯合創始人兼 CTO 張宇韜被前公司迴圈智慧時期的投資人在中國香港提起仲裁,相關電子仲裁申請書也已遞交 HKIAC(香港國際仲裁中心)。

對此,銘德律師事務所資深合夥人 David Morrison 律師今日回應第一財經稱:「本所已接受楊植麟先生、張宇韜先生委託,關注到相關仲裁事項。我們認為該事項既缺乏法律依據,也不具備事實基礎,本所將依法提出抗辯。」

另據知情人士訊息稱,本次仲裁的申請方,來自迴圈智慧以及迴圈智慧 7 家投資方中的 5 家:金沙江創投、靖亞資本、博裕資本、華山資本和萬物資本。
上述知情人士表示,此次仲裁申請可能緣起於,在尚未拿到來自迴圈智慧的幾個投資方(金沙江創投、萬物資本、靖亞資本、華山資本和博裕資本)的同意豁免書之前,楊植麟和張宇韜等人就已啟動融資並創立月之暗面。(@IT 之家)

02 有態度的觀點

1、OpenAI 產品負責人:現在的模型受限於評估方法

OpenAI 的首席產品官 Kevin Weil 和 Anthropic 的首席產品官 Mike Krieger 共同探討了人工智慧領域的多個核心議題。

他們討論了當前 AI 模型的侷限性,強調這些侷限更多地在於評估方法而非智慧水平本身,指出產品經理的角色正在經歷轉變,從傳統的角色向研究型產品經理演進,這要求他們掌握編寫評估標準和模型微調等新技能。

兩位產品負責人還展望了 AI 的未來,提出了「主動性」和「非同步」作為 AI 發展的關鍵詞,預測模型將變得更加主動,監控使用者郵件、發現趨勢、準備會議內容,同時也會更非同步,可能需要時間來思考和回答。

此外,他們對使用者適應 AI 的速度表示驚歎,預計 AI 將模仿人類思維,以指數級速度迭代升級,並以我們人類互動的所有方式進行互動,預示著全新的人機互動正規化。(@APPSO)

2、OpenAI 聯合創始人 Sutskever 預測大模型擴張時代或將終結

據路透社報導,主要 AI 實驗室正面臨困境。開發大型語言模型不僅需要投入數千萬美元,還常常遭遇系統崩潰等技術難題,評估一個模型的效能往往需要持續數月之久。

這種發展瓶頸已經波及行業巨頭。有報導稱 OpenAI 的新型 Orion 模型相比 GPT-4 提升有限,谷歌的 Gemini2.0 也遇到類似困境。Anthropic 方面,其執行長 Dario Amodei 表示正在重新規劃 Opus3.5 的開發路線。

OpenAI 前聯合創始人、現 Safe Superintelligence(SSI)負責人 Ilya Sutskever 指出:「2010 年代是擴充套件的時代,現在我們進入了探索與發現的新階段。」這一表態格外引人注目,因為 Sutskever 曾是「越大越好」理念的倡導者。

行業新方向指向「測試時計算」,即賦予 AI 模型更多時間來逐步思考和解決問題。這種方法著重培養 AI 系統的推理能力,使其能夠生成多個解決方案並進行評估,而不是簡單地快速作答。

這一轉變也可能影響硬體市場格局。雖然 Nvidia 在傳統 AI 訓練硬體領域佔據主導地位,但新的計算正規化為 Groq 等其他晶片製造商帶來了機遇。不過,業內預計未來可能會同時採用傳統方法和新方法,以實現最優成本效益。

多位業內人士認為,雖然傳統的語言模型開發仍將持續,但行業重心已經開始轉移。這標誌著 AI 發展進入了一個更注重質量和思維能力的新階段。(@AIbase 基地)

寫在最後:

我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。

對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。

素材來源官方媒體/網路新聞

相關文章