位元組豆包釋出新模型,AI 一句話 P 圖;Google 正式推出 Vids,簡單提示即可生成影片演示丨 RTE 開發者日報
開發者朋友們大家好:
這裡是 「RTE 開發者日報」 ,每天和大家一起看新聞、聊八卦。我們的社群編輯團隊會整理分享 RTE(Real-Time Engagement)領域內「有話題的 新聞 」、「有態度的 觀點 」、「有意思的 資料 」、「有思考的 文章 」、「有看點的會議」,但內容僅代表編輯的個人觀點,歡迎大家留言、跟帖、討論。
本期編輯:@SSN,@ 鮑勃
01 有話題的新聞
1、位元組新模型 SeedEdit 開啟測試:一句話輕鬆 P 圖
位元組跳動於 11 月 11 日推出了其最新影像編輯模型 SeedEdit,成為國內首個產品化的通用影像編輯工具。使用者只需輸入一句簡單的自然語言指令,即可實現對圖片的背景更換、風格轉換以及元素的增刪替換,無需繁瑣的描邊和塗抹。
SeedEdit 在識別指令方面表現出色,能夠精準理解中文和英文提示,包括成語及專有名詞。例如,使用者只需輸入「把西瓜換成葡萄」,SeedEdit 便能快速完成上個與水果替換。
此外,模型在處理細節時也保持了原圖的完整性,例如移除玻璃裂紋或改變影像中的特定元素。
作為一款通用影像編輯模型,SeedEdit 不僅支援單次編輯,還允許多輪創意操作。使用者可以對同一影像進行連續編輯,創造出多樣化的效果。
報告顯示,SeedEdit 依然採用了 Diffusion 架構,但在不引入新引數的情況下將影像生成模型轉換成了影像編輯模型。其秘訣是在保持原始影像和生成新內容之間尋找平衡,最終得以在影像編輯的通用性、可控性和高質量上實現新的突破。解決了傳統 AI 影像編輯中存在的多個痛點。
據瞭解,SeedEdit 已在豆包 PC 端和即夢 AI 上線網頁端開始測試,使用者可以透過簡單的指令實現高效的影像編輯。與 Dall・E3 和 Midjourney 等競爭對手相比,SeedEdit 在編輯的便捷性和響應精準度上更具優勢。(@AIbase 基地)
2、Suno 釋出 V4 音樂生成模型音訊演示影片,音質和風格大提升
近日,Suno 公司釋出了其最新的 v4 音樂生成模型的音訊樣本。這些演示音訊展現了與之前版本相比,音質、音色多樣性和一致性都有了顯著提升。
Suno 的 v4 模型透過深度學習技術對大量音樂資料進行訓練,旨在生成更自然、更豐富的音樂作品。與以往版本相比,v4 模型在音訊合成方面的表現更為出色,能產生更具表現力的樂曲,增強了音樂的情感表達。聽眾在試聽樣本時,能夠明顯感受到音質的細膩程度和旋律的流暢性,給人以耳目一新的體驗。
為了使這一新模型的功能更為全面,Suno 還對音樂的多樣性進行了最佳化。透過對不同風格和流派的音樂資料進行學習,v4 模型能夠生成多種風格的音樂,滿足不同聽眾的需求。
此外,模型在保持音樂一致性方面也有所改進,無論是在旋律、節奏還是和聲方面,v4 都能夠保持高度的協調性。
這一系列的改進使得 Suno 的 v4 音樂生成模型不僅適用於個人創作,還可以被廣泛應用於商業音樂製作、遊戲音樂及其他需要背景音樂的場合。Suno 希望透過這一創新,能夠推動 AI 音樂生成技術的進一步普及和應用。(@AIbase 基地)
3、X 正在測試 AI 聊天機器人 Grok 的免費版本
據 TechCruch 報導, X 一直將其 AI 聊天機器人 Grok 限制給高階付費使用者使用。
不過,X 似乎正準備向免費使用者開放聊天機器人。
上個週末,有部分應用研究人員和使用者釋出了有關聊天機器人 Grok 免費版將向特定地區使用者開放的訊息。據研究人員表示,目前免費的使用次數有限制:Grok-2 模型每兩小時 10 次查詢,Grok-2 mini 模型每兩小時 20 次查詢,每天三個影像分析問題。
報導指出,要免費使用 Grok,使用者的帳戶必須至少有七天的歷史並且與其關聯的電話號碼。(@APPSO)
4、Google 正式推出 Gemini AI 驅動的影片演示應用 Vids, 透過簡單提示即可生成影片演示
Google 正式推出了其 Gemini AI 驅動的影片演示應用程式 Vids,使用者可以透過簡單的提示生成影片演示。
Vids 整合了 Gemini 的生成式 AI 功能,使用者只需提供提示或 Google Drive 中的文件,系統即可生成一個初始影片故事板,包括推薦的場景、指令碼、背景音樂等。使用者可以透過「Help me create」功能快速獲取一個編輯草稿,大大簡化了影片製作過程。
Vids 還支援語音旁白,可以選擇 Gemini 的預設 AI 語音或錄製自己的語音。系統還包含滾動式提詞器,幫助使用者在錄製過程中自然流暢地呈現資訊。此外,使用者可以新增自己的影片、螢幕錄製和音訊錄製,以便製作多樣化的影片內容。
Vids 的主要功能包括自動插入素材影片、生成指令碼、以及建立 AI 語音旁白,使用者無需親自錄音。Google 表示該工具可用於將客戶支援文章轉化為影片、製作培訓影片、釋出公司公告、生成會議回顧等。(@ 小互 AI)
5、月之暗面創始人被前公司投資人提起仲裁,受理律師回應將提出抗辯
月之暗面創始人楊植麟、聯合創始人兼 CTO 張宇韜被前公司迴圈智慧時期的投資人在中國香港提起仲裁,相關電子仲裁申請書也已遞交 HKIAC(香港國際仲裁中心)。
對此,銘德律師事務所資深合夥人 David Morrison 律師今日回應第一財經稱:「本所已接受楊植麟先生、張宇韜先生委託,關注到相關仲裁事項。我們認為該事項既缺乏法律依據,也不具備事實基礎,本所將依法提出抗辯。」
另據知情人士訊息稱,本次仲裁的申請方,來自迴圈智慧以及迴圈智慧 7 家投資方中的 5 家:金沙江創投、靖亞資本、博裕資本、華山資本和萬物資本。
上述知情人士表示,此次仲裁申請可能緣起於,在尚未拿到來自迴圈智慧的幾個投資方(金沙江創投、萬物資本、靖亞資本、華山資本和博裕資本)的同意豁免書之前,楊植麟和張宇韜等人就已啟動融資並創立月之暗面。(@IT 之家)
02 有態度的觀點
1、OpenAI 產品負責人:現在的模型受限於評估方法
OpenAI 的首席產品官 Kevin Weil 和 Anthropic 的首席產品官 Mike Krieger 共同探討了人工智慧領域的多個核心議題。
他們討論了當前 AI 模型的侷限性,強調這些侷限更多地在於評估方法而非智慧水平本身,指出產品經理的角色正在經歷轉變,從傳統的角色向研究型產品經理演進,這要求他們掌握編寫評估標準和模型微調等新技能。
兩位產品負責人還展望了 AI 的未來,提出了「主動性」和「非同步」作為 AI 發展的關鍵詞,預測模型將變得更加主動,監控使用者郵件、發現趨勢、準備會議內容,同時也會更非同步,可能需要時間來思考和回答。
此外,他們對使用者適應 AI 的速度表示驚歎,預計 AI 將模仿人類思維,以指數級速度迭代升級,並以我們人類互動的所有方式進行互動,預示著全新的人機互動正規化。(@APPSO)
2、OpenAI 聯合創始人 Sutskever 預測大模型擴張時代或將終結
據路透社報導,主要 AI 實驗室正面臨困境。開發大型語言模型不僅需要投入數千萬美元,還常常遭遇系統崩潰等技術難題,評估一個模型的效能往往需要持續數月之久。
這種發展瓶頸已經波及行業巨頭。有報導稱 OpenAI 的新型 Orion 模型相比 GPT-4 提升有限,谷歌的 Gemini2.0 也遇到類似困境。Anthropic 方面,其執行長 Dario Amodei 表示正在重新規劃 Opus3.5 的開發路線。
OpenAI 前聯合創始人、現 Safe Superintelligence(SSI)負責人 Ilya Sutskever 指出:「2010 年代是擴充套件的時代,現在我們進入了探索與發現的新階段。」這一表態格外引人注目,因為 Sutskever 曾是「越大越好」理念的倡導者。
行業新方向指向「測試時計算」,即賦予 AI 模型更多時間來逐步思考和解決問題。這種方法著重培養 AI 系統的推理能力,使其能夠生成多個解決方案並進行評估,而不是簡單地快速作答。
這一轉變也可能影響硬體市場格局。雖然 Nvidia 在傳統 AI 訓練硬體領域佔據主導地位,但新的計算正規化為 Groq 等其他晶片製造商帶來了機遇。不過,業內預計未來可能會同時採用傳統方法和新方法,以實現最優成本效益。
多位業內人士認為,雖然傳統的語言模型開發仍將持續,但行業重心已經開始轉移。這標誌著 AI 發展進入了一個更注重質量和思維能力的新階段。(@AIbase 基地)
寫在最後:
我們歡迎更多的小夥伴參與「RTE 開發者日報」內容的共創,感興趣的朋友請透過開發者社群或公眾號留言聯絡,記得報暗號「共創」。
對於任何反饋(包括但不限於內容上、形式上)我們不勝感激、並有小驚喜回饋,例如你希望從日報中看到哪些內容;自己推薦的信源、專案、話題、活動等;或者列舉幾個你喜歡看、平時常看的內容渠道;內容排版或呈現形式上有哪些可以改進的地方等。
素材來源官方媒體/網路新聞
相關文章
- ChatGPT 向更多使用者推出高階語音模式:支援 50 種語言;位元組釋出兩款新影片生成大模型丨 RTE 開發者日報ChatGPT模式大模型開發者日報
- 沒有方向盤和踏板,特斯拉釋出無人駕駛計程車;位元組豆包推出 AI 智慧體耳機 Ola Friend 丨 RTE 開發者日報AI智慧體開發者日報
- 首個實時 AI 影片生成技術釋出;科大訊飛釋出星火大模型 4.0 丨 RTE 開發者日報AI大模型開發者日報
- 谷歌推出Google Vids新AI影片應用谷歌GoAI
- 真·打字P圖!位元組釋出新模型SeedEdit,一句話爆改世界名畫,可免費體驗模型
- 阿里 Qwen2.5 開源釋出;YouTubeVeo 引入 Google DeepMind Veo 模型丨 RTE 開發者日報阿里Go模型開發者日報
- 語音生成模型 PlayDialog:可生成對話播客、旁白;小米 AI 眼鏡將於明年 Q2 釋出丨 RTE 開發者日報模型AI開發者日報
- OpenAI 曝新專案「草莓」,提升 AI 推理能力;智譜 AI 開源影片理解模型丨 RTE 開發者日報OpenAI模型開發者日報
- OpenAI 釋出全新生成式模型 GPT-4o;位元組收購音訊裝置公司 Oladance 丨 RTE 開發者日報 Vol.203OpenAI模型GPT音訊開發者日報
- 小米回應「網友惡搞 AI 雷軍配音罵人」;Hailuo AI 上線圖片生成影片功能丨 RTE 開發者日報AI開發者日報
- 影片生成模型 Dream Machine 開放試用;微軟將停止 Copilot GPTs 丨 RTE 開發者日報 Vol.224模型Mac微軟GPT開發者日報
- 11Labs 支援打造對話 AI 智慧體;阿里推出大模型 Qwen2.5-Turbo 速度提升 4.3 倍丨 RTE 開發者日報AI智慧體阿里大模型開發者日報
- Hume AI 推出 EVI 2 情感模型;OpenAI o1 模型問世,模擬人類思考問題 丨 RTE 開發者日報模型OpenAI開發者日報
- 即夢AI首發,位元組自研影片生成模型Seaweed開放使用AI模型
- 位元組跳動打響大模型價格戰;蘋果將在 iPhone、iPad 上推出眼球追蹤功能丨 RTE 開發者日報 Vol.205大模型蘋果iPhoneiPad開發者日報
- Amphion 推出開源 TTS 模型 MaskGCT,5 秒克隆聲音;神秘文生圖模型「小熊貓」登頂競技場丨 RTE 開發者日報TTS模型GC開發者日報
- 上海交大開源超逼真聲音克隆 TTS;微軟探索音生圖 AI 模型丨 RTE 開發者日報TTS微軟AI模型開發者日報
- 微軟將深度整合 Azure AI 與 GitHub;Stability AI 0.5 秒生成三維建模丨 RTE 開發者日報微軟AIGithub開發者日報
- Meta SAM 2:實時分割圖片和影片中物件;Apple Intelligence 首個開發者測試版釋出丨 RTE 開發者日報物件APPIntel開發者日報
- (內含福利)Meta 釋出新開源模型 Llama 3;華為 Pura 70 系列一分鐘售罄丨 RTE 開發者日報 Vol.188模型開發者日報
- 爆火 AI 硬體遭差評,Ai Pin 上市即翻車;Grok 推出首個多模態模型丨 RTE 開發者日報 Vol.184AI模型開發者日報
- AutoGLM:一句話控制手機電腦;英偉達新視覺壓縮工具:Cosmos Tokenizer 丨 RTE 開發者日報視覺開發者日報
- 華為否認大模型演示造假;美國億萬富翁宣佈競購 TikTok 丨 RTE 開發者日報 Vol.206大模型開發者日報
- 位元組跳動釋出“豆包MarsCode”智慧開發工具,面向國內開發者免費
- 微軟或開發新模型與 OpenAI 競爭;蘋果或將推出 Apple Pencil Pro 丨 RTE 開發者日報 Vol.198微軟模型OpenAI蘋果APP開發者日報
- Hume AI 語音控制功能:建立個性化語音;李飛飛空間智慧首個模型:單圖生成 3D 互動場景丨 RTE 開發者日報AI模型3D開發者日報
- ChatGPT 即將登陸 iPhone;史丹佛推出 AI 輔助全息成像技術丨 RTE 開發者日報 Vol.202ChatGPTiPhoneAI開發者日報
- 位元組影片生成模型 PixelDance上線即夢AI,使用者可免費體驗模型LDAAI
- Fish Agent:多語言 Voice-to-Voice 開源語音模型;Runway 推出攝像機運鏡功能丨 RTE 開發者日報模型開發者日報
- Sam Altman 新公司將打造 AI 健康教練;全新大模型架構 TTT 超越 Transformer 丨 RTE 開發者日報AI大模型架構ORM開發者日報
- 終於拿到內測!豆包-PixelDance真是位元組影片生成大殺器LDA
- 商湯釋出行業首個全棧大模型產品矩陣;微軟釋出小型 AI 模型 Phi-3-mini 丨 RTE 開發者日報 Vol.191行業全棧大模型矩陣微軟AI開發者日報
- OpenAI 釋出 AI 生成圖片檢測器;特斯拉計劃在中國測試自動駕駛計程車丨 RTE 開發者日報 Vol.200OpenAI自動駕駛開發者日報
- 微軟開發者大會推出 60 個新發布;阿里雲和百度加入大模型「價格戰」丨 RTE 開發者日報 Vol.209微軟阿里大模型開發者日報
- GTC 2024 開幕,英偉達釋出新一代 GPU 架構;Apple ID 或將淘汰丨 RTE 開發者日報 Vol.168GPU架構APP開發者日報
- 位元組預熱智慧硬體 Ola Friend,預計為智慧耳機;鴻蒙 NEXT 公測正式開啟,微信邀請內測丨 RTE 開發者日報鴻蒙開發者日報
- 新 Chrome 外掛可檢測 AI 偽造聲音;Canary Speech 推出用於臨床對話的語音分析技術丨 RTE 開發者日報ChromeAI開發者日報
- Google開發者大會:為中國開發者和消費者推出新的工具Go