Sora 終於來了!
只要是 ChatGPT Plus/Pro 使用者,直接就能用上。
至於效果 ......
看完官方放出的 demo,網友大呼:不太行 !
當人們對「超級應用」的熱情被 Sora 澆上一盆涼水時,多模態應用已經悄咪咪跑了起來,速度超出想象。一個創意、一鍵生成,短短五分鐘,一段品牌宣傳片便能完美呈現。手機,也能來個「即圈即搜」 。貴陽市民早高峰擁堵時長縮短了半小時,大模型功不可沒。在百勝中國,AI 客服每天能處理超過 15 萬次消費者溝通。龍源電力的 5 萬路影片監控,現在只需一句話就能過濾掉無關的煙霧、燈光等干擾誤報。這些都不是簡單的技術 demo ,而是百度智慧雲在給實際生產「上價值」 的真實寫照。IDC 資料也印證了這一點。2023 年,百度智慧雲至少拿了兩個第一:在 AI 公有云市場份額達到了 26.4 %,已連續五年位居首位;大模型又是 AI 公有云的細分領域,作為國內率先搶跑大模型的雲廠商,2023 年百度智慧雲在大模型平臺市場份額為 19.9%,也位居第一。可見,大模型正成為百度智慧雲一年多來新的增長引擎。百度創始人李彥宏曾在百度世界 2024 大會上透露,截至 11 月初,百度文心大模型的日均呼叫量達到 15 億,相較一年前首次披露的 5000 萬次,增長了約 30 倍。呼叫量高、增速快,表明有越來越多的應用在使用大模型。「呼叫背後意味著它在給應用產生價值。」 李彥宏說。「 Sora 這種,無論多火,百度都不去做。」 公開場合談及此,李彥宏態度明確。百度要做的是基建,幫更多使用者做出自己的 Sora ,打造無數個「超級有用」 的多模態應用。市場也用真金白銀投了票。據媒體報導,市場大盤上,2024 年 1-8 月大模型中標專案數量已是 2023 年全年的 5 倍,百度綜合排名第一:除了中標金額、專案數量最多,行業覆蓋也最廣,央國企客戶過半。作為「標王」,不做 Sora 並不意味著放棄多模態。很多場景應用,如果沒有多模態技術支援,根本落不了地。但企業要的不是裸的模型,而是貼合自家業務場景的多模態能力,能「開箱即用」就更好了。身為 「標王」 ,百度智慧雲也有底氣給足各種選項。憑啥?它控制了從底層算力到上層應用的堆疊每一層,在堆疊每一層都有關鍵自研技術。在此,離不開兩個核心支點:作為大模型精調和應用開發平臺的千帆,以及提供穩定高效算力服務的百舸平臺。一些前沿的空間智慧玩家已經蓋戳認證,如生數科技、哇嘶嗒( VAST )、光魔科技。這個以 GPU 為核心搭建的異構計算平臺,本來就很適合多模態大模型訓練,主打一個「多快穩省」 。「多」 ,是指 「多芯混訓」 ,支援同一智算叢集中混合使用不同廠商晶片,相容崑崙芯、昇騰、海光 DCU、英偉達、英特爾等國內外主流 AI 晶片。選擇靈活,也降低了算力成本,還不用擔心效能顯著下降。因為,百舸的多芯混合訓練任務的效能損失,控制在了萬卡效能損失 5%,已經是業界最高水平。從釋出到上線僅三個月,生數科技就完成了對 Vidu 的快速迭代。為啥這麼快?因為百舸會把不同地點、不同規模、不同叢集的算力統一管理起來,再透過一些最佳化經驗和技術,大大提升智慧算力的效能:萬卡叢集上的模型有效訓練時長佔比超過 99.5%,線性加速比和頻寬有效性均超過了 95% ,業界領先。訓練 Vidu 大模型需要長序列訓練和較大的上下文視窗,百舸創新提供了序列並行策略、視訊記憶體最佳化策略,還支援超長上下文訓練。作為結果,大模型訓練中最費時間的渲染環節,效率提升了 3 倍。同時,透過最佳化資料拉取機制,顯著壓縮了資料準備時間。提供自定義映象推理服務,使用者可以「搭樂高」 ,滿足不同推理服務部署。多模態推理加速能力。這也是 Vidu 將 AI 影片生成等待時間壓縮至 30 秒,比業內最快水平 Gen-3 還要快一倍的「幕後功臣」 。值得一提的是,大模型 Scaling Law 仍在繼續,百舸 4.0 也具備了成熟的 10 萬卡叢集部署和管理能力。主打一個「低門檻」甚至「零門檻」 ,最好普通人都能用。至今,已經促成超 77 萬應用的誕生。憑藉「三層分立」:模型開發層、模型服務層和應用開發層,滿足千變萬化現實需求。在模型開發層,千帆提供全流程工具,從資料處理、模型調優到部署,滿足多模態大模型定製化需求。想直接呼叫多模態能力的使用者,可以在模型服務層「各取所需」。多個領域主流模型,千帆都給安排了。文生圖:如 Stable-Diffusion-XL 、文心一格;雖然百度 ERNIE 系列大語言模型和語音系列模型主要針對單一模態,但也可以透過組合使用來增強整體的多模態處理能力。過去一年,文心旗艦大模型降價幅度超過 90%,兩款主力大模型 ERNIE Speed 和 ERNIE Lite 免費,最大限度降低企業創新試錯的成本。最上一層是應用開發,幫助企業用多模態能力改造業務,這個辦法最簡單、直接。最近上新了企業級 RAG 和企業級 Agent 開發,將多模態應用門檻又拉低了一截。在現有工具鏈支援下,只需一、兩句話+勾選、拖拽,大模型就能跑出一個簡單、閉環的輕量化 Agent,如熟知業務「套路」的數字員工。愛庫存是一傢俬域電商供貨平臺,數百萬店主透過微信群、朋友圈分發平臺上的商品。他們正在千帆大模型平臺開發「愛庫存超級助手」Agent。此前,店主遇到銷量下滑需要經歷繁瑣流程:檢視資料找原因,瀏覽熱賣榜選品類,比價選品,再製作文案和海報。這一系列操作通常要花費數小時。現在有了 Agent,這些工作只需幾分鐘就能完成。對於千行百業中呈長尾分佈、「拿來主義」就能搞定的需求來說,百度智慧雲打造的一批 AI 原生應用,會很趁手。「客悅」 、「曦靈」 、「甄知」、「一見」 等都實現了多模態的「開箱即用」 。營銷、客服,幾乎是所有企業捨得砸錢、也最容易積累資料與 AI 產生化反的通用場景。有了「客悅」、「曦靈」,數字人銷售、直播帶貨,分分鐘搞定。某日化龍頭企業用客悅 AI 外呼回訪老客戶,不僅摸清了客戶流失原因,還透過精準派券帶動復購,最終復購率提升超 10% 。曦靈數字人平臺擁有文生 3D 數字人的能力,不但可以一句話生成企業所需 3D 數字人形象,還可以讓它立即投入工作,自動生成專業的帶貨影片。有了多模態能力的加持,數字人主播可以一邊展示貨品一邊講解,還能和直播間使用者實時互動,全年無休,多國語言也能張嘴就來。價格上,僅需 199 元!一個 3D 超寫實的數字人,過去定價可是萬元級別。企業知識管理也迎來多模態升級。「甄知」讓知識管理從「重儲存」轉向「重應用」,企業知識被盤活。以南方電網為例,集團擁有數萬篇各類標準檔案,都以 PDF 形式儲存。「甄知」運用大模型的 OCR 視覺能力,快速將這些文件拆解為章節段落和圖表,完成知識結構化。員工能在「甄知」輔助下編寫各種企業文件,新產生的知識會自動進入企業知識庫,精準推給需要的同事。基於多模態大模型重構的「一見」 視覺大模型,可快速滿足碎片化場景下的視覺需求。礦區駕駛員的「一分鐘安全確認」,從傳統小模型需要 50 多天,縮短到現在僅需 2 天左右就能投產使用。「開箱即用」的 AI 原生應用也延伸到了醫療、政務、交通等更多領域,加速多模態應用在千行百業落地。一旦技術得到廣泛應用,就會產生海量資料,這些資料又反哺 AI 進化,推動資料飛輪高速運轉。不同於 Sora,這是百度認準的一條通往 AGI 之路。「我們應該把注意力放在閉環怎麼走完,而不是不斷解鎖能力。」李彥宏認為,一旦有一家(大模型)廠商的「飛輪」 轉起來,後來者再追趕,需要花更多力氣。事實上,百度智慧雲能成為今天的「標王」 、領跑者,除了技術上的領先,也源於多年堅守「向實」 。當一些網際網路雲廠商淡出政企市場時,百度智慧雲還在電信、能源、製造、交通等重點領域深耕,靜待花開。這些年的專案經驗,讓百度智慧雲沉澱了大量 AI 解決方案,透過持續提煉,不斷提升複用率和產品化水平。正是沉澱在先,後來有了多模態大模型,才能「點石成金」 。沒有「專業選手」 ,使用者也能基於「一見」 視覺大模型平臺訓練出和百度原廠效果一樣的視覺模型,因為「一見」 凝結了七年的行業實踐,積累了豐富的模型、運算元和場景化模型產線。龍源電力平臺已成功接入 5 萬多路影片監控,覆蓋 250 多個風電場,實現了實時 AI 分析與統一管控。「一見」 在海量併發處理和資料管理方面的成熟能力也是透過大量標杆客戶實踐打磨出來的。多模態生成式 AI 作為新一代前沿技術,正在突破大語言模型的固有侷限。Omdia 最新發布的《全球生成式 AI 應用市場研究報告》預測,全球多模態生成式 AI 市場規模將於 2029 年達到 142 億美元,較 2024 年增長 6 倍。憑藉技術實力和豐富的工程經驗,百度智慧雲已在企業級市場建立起堅實根基。穩定的付費客戶群不僅讓其在價格競爭中保持優勢,更為長遠發展奠定了基礎。Omdia 也在報告中指出,企業在選擇多模態應用解決方案時,百度智慧雲這類全棧服務供應商比單純的多模態生成式 AI 基礎模型提供商(如推出 Sora 的 OpenAI )更具優勢。這源於其完整的技術體系能更好滿足企業實際需求。在大模型的馬拉松爭霸賽中,百度智慧雲正用實力證明:我不僅是開局的佼佼者,更將是決賽圈的重量級選手。