大模型價格進入“釐”時代,豆包大模型定價每千tokens僅0.8釐

机器之心發表於2024-05-15

大模型的價效比之戰已經來到了新的階段。

5月15日,2024火山引擎FORCE原動力大會上,火山引擎總裁譚待宣佈,位元組跳動內部自研的豆包大模型正式在火山引擎上對外開放服務。

豆包大模型在價格上主打“極致價效比”:豆包通用模型pro-32k版,推理輸入價格0.0008元/千tokens,較行業價格低99.3%。一元錢能買到豆包主力模型的125萬tokens,相當於三本《三國演義》的輸入量。

譚待認為,降低成本是推動大模型快進到“價值創造階段”的一個關鍵因素。過去一年時間中,許多企業已經從探索嘗試大模型,到成功將大模型與核心業務流結合。不論是探索階段的小場景試錯環節,還是大流量的核心業務流結合環節,大模型成本高昂問題始終是制約大模型在千行百業落地的關鍵要素之一。

除了成本,企業大模型落地過程中還可能面臨的模型效果差、資訊保安、演算法實踐經驗少等問題,大模型服務平臺火山方舟2.0版本提出了更具體的解決方案,其平臺模型效果、核心外掛、系統效能和平臺體驗層面全面升級。

在大會前的採訪中,火山引擎智慧演算法負責人、火山方舟負責人吳迪向機器之心透露,根據位元組跳動內部的判斷,當前階段已經處在大模型規模化落地的爆發前夕,預計2024年年底或者2025年初,企業對大模型的呼叫量將出現一個陡峭上升、流量激增的拐點。

吳迪認為,在大模型整體落地走向拐點的過程中,模型效果、系統承載力以及價效比三個重要痛點將會更加明顯,火山方舟未來也將在這三方面持續發力。

模型效果提升,支援日千億級別tokens呼叫量

模型的效能和效果是制約許多企業創新場景的首要條件。作為大模型服務平臺,火山方舟平臺在模型上希望打造一個“精品模型商店”。根據吳迪的說法,跟去年相比,火山方舟平臺在模型的上架上,呈現更加嚴謹和收縮的態勢。“只選擇最優秀的閉源大模型,以及能夠持續發展的開源大模型”。


在這次的火山引擎FORCE原動力大會上,位元組跳動內部的豆包大模型首次面世,而火山方舟將是豆包大模型的唯一使用入口。

位元組跳動向外一次性推出了豆包大模型的全系列模型,包括豆包通用模型pro/lite、角色扮演模型、語音合成模型、語音識別模型、聲音復刻模型、Function call模型、文生圖模型以及向量化模型。

不同模型面向不同的場景需求。在通用需求上,豆包通用模型pro版能夠提供更加專業且泛化的能力,視窗尺寸最大可達128K,全系列可精調,具備強理解、生成、邏輯和記憶力,在問答、總結摘要、創作、文字分類、角色扮演等通用場景具備全面通用的能力。而lite版,則面向更追求價效比的客戶,更加輕量。

其他細分場景模型支援和加強單一細分場景的能力。比如,角色扮演模型極大地加強了模型在角色扮演方面的能力,能夠支援老師、朋友、寵物等角色的扮演需求;語音合成模型擁有超自然語音合成能力,做到5s聲音克隆,支援聽書、陪伴互動等場景;語音識別模型,支援多語種複雜場景語言識別需求,相比小模型識別錯誤率降低30%,在音樂、科技、教育、醫療等垂直領域識別錯誤率降低50%以上。
圖片
經過過去一年的內部打磨,豆包大模型從1.0進化到3.0,在位元組跳動內部被用於辦公智慧助手、電商導購、售後客服、營銷創作、資料智慧分析、程式設計助手等等50餘個業務場景,日呼叫量達到1200億tokens(約1800億漢字),圖片生成量超過3000萬張。目前由豆包大模型支援的AI應用助手豆包APP累計下載量超過1億,桌面+App雙端月活使用者量2600萬,支援建立的智慧體總量超過800萬。

在採訪中,吳迪向機器之心解釋稱,當前豆包大模型每日千億tokens級別的量級是目前中國(大模型)市場上非常大的單日吞吐量。這意味著,豆包大模型以及火山方舟的平臺已經經過了大流量的生產環境驗證,因此即使面對流量非常大,對效果要求非常嚴苛的客戶,被內部業務打磨後的豆包大模型也能夠支援這類需求。

處理大流量的能力在大模型落地拐點到來後將非常重要。根據吳迪的預判,到了24年底或者到了25年的時候,企業在大語言模型的呼叫量上面將是今年的數十倍以上。隨著企業將大模型納入自己的核心業務流中,處理大流量的需求也會逐漸擴充。

“大模型的落地不是一件從帽子裡拽出來兔子的一個魔法。要把大模型在企業的具體環境裡面用好,來解決那些遠高於公開評測集的困難問題,是需要有一定的演算法協助的。”

在模型效果的提升上,除了模型本身的能力提升和場景聚焦,針對許多客戶在工程落地上的困難,火山方舟還形成了專業的演算法服務團隊,可以在落地全過程,協助業務診斷、訓練最佳化、問題解答,比如提示詞工程,協助用模型和客戶的資料去做一些精調和訓練,保障專案落地。

目前,豆包大模型團隊還在重兵投入,持續招攬研究型專家和高潛人才。在位元組跳動招聘官網上搜尋“豆包大模型”,即可看到該團隊有大量職位在招,對大模型的堅決投入可見一斑。

系統承載力增強,完成分鐘級千卡伸縮

在大模型被企業逐漸納入核心流程的階段,火山方舟還發現,面對更大體量的業務、更劇烈的流量波動,還需要更強的系統承載力,否則“有了模型,也跑不起來”。


吳迪總結稱,所謂系統承載力,是充沛算力、模型最佳化能力以及系統排程能力的乘積。只有系統做到更加彈性、穩定、包容,才能接住業務的流量高峰期,並且為潮汐起落的流量匹配最佳的算力投入,實現成本節約。

根據大會的介紹,升級後的火山方舟在系統承載力方面的增強也體現在這三方面。在算力方面,擁有充沛的公有云GPU資源池,能夠保障資源潮汐排程,流量高峰業務穩定;在最佳化方面,建立精調模型接入點後5秒即可使用,路由資訊持久化儲存,即用即達;在排程方面,能夠分鐘級完成千卡擴縮容,有效支撐突發流量和業務高峰。

通常而言,由於一般公司流量的高峰期相對集中,企業自建機房的情況下,平均每天GPU使用時間通常在8-10小時,在4-6小時的高峰期中,GPU用量可以做到效率最高,但是其他時間效率較低,平均成本會被拉高。

在一個具備更強承載力的系統下,火山方舟希望做到的是,在無限短的時間裡,讓算力流動到它該出現的地方,當客戶流量爆發時,在毫秒級別的時間裡,為這個時段的客戶增加GPU算力;當流量下行時,同樣快速地抽離算力。在保證客戶延遲穩定的情況下,貼合其流量變化,從而最終實現創造最低單位算力成本。

另外,火山引擎在推理層面上做了大量最佳化,包括運算元最佳化、通訊最佳化、大的叢集上主網和儲存的最佳化,能夠幫助適應異構硬體。

成本更低,大模型價格進入“釐時代”

在眾多限制因素中,由於算力貴帶來的整體大模型使用成本高昂的問題,不僅限制了更多企業在大模型落地方面的創新,也阻礙了企業將大模型落地場景規模化的程序。

QuestMobile資料顯示,截至今年3月,基於大模型的AIGC行業使用者量為7380萬,儘管同比增長了8倍,也僅佔移動網際網路使用者量的6%。

火山引擎總裁譚待認為,降低成本是推動大模型快進到“價值創造階段”的一個關鍵因素。

會上譚待宣佈,豆包大模型的定價大幅低於行業價格:豆包通用模型pro-32k版,模型推理輸入價格僅為0.0008元/千tokens,而市面上同規格模型的定價一般為0.12元/千,是豆包模型價格的150倍。

另外,豆包通用模型pro-128k版本,推理輸入價格為0.005元/千tokens,僅是GPT4-Turbo128K (0.07元/千tokens)定價的7%。

根據火山引擎公佈的價格計算,一元錢就能買到豆包主力模型的125萬tokens,大約是200萬個漢字,相當於三本《三國演義》。

譚待表示,大模型降價,不能只提供低價的輕量化版本,主力模型和最先進的模型也要夠便宜,才能真正滿足企業的複雜業務場景需求,充分驗證大模型的應用價值,從而催化出超越現有產品和組織模式的創新。

豐富的外掛生態,嵌入抖音頭條底層能力

在本次火山方舟的產品升級中,上述三大升級被認為是火山方舟的三個核心迴圈層,由這三個迴圈層共同作用下,能夠幫助客戶解決大模型落地中最重要的三大痛點。

除此之外,本次釋出會上,火山方舟還重點提到了,2.0產品對外掛生態的進一步豐富,更新後的平臺將會上線三個凝結了位元組跳動內部強項能力的外掛——聯網外掛、內容外掛以及RAG知識庫外掛。

  • 聯網外掛能夠提供頭條抖音同款搜尋能力,實時連線海量優質網際網路資料,不斷從新的資料和資訊中學習,從而提高其效能和適應性,同時使用文字、影像、語音等多模態互動方式,並透過意圖識別能力,提供更準確和全面的回答。

  • 內容外掛,能夠提供頭條抖音同源海量內容,支援多模態互動,提供基於意圖的垂類內容資訊檢索,內容時效檢索更強,幫助大模型深入理解、檢索和生成內容。

  • RAG知識庫外掛能夠支援將企業的私域資料注入到大模型中,實現毫秒級百億規模的高效能檢索,秒級流式知識庫索引更新。

根據吳迪的說法,這三大外掛是內外部業務需求分析後,需求量最大的三種型別外掛,這三大外掛也同時利用了位元組跳動本身的技術、內容、生態優勢。

其中,RAG知識庫外掛中內嵌的豆包向量模型,來自抖音和頭條兩大產品的底層向量庫引擎,能夠支援200億的庫容量,面對10萬次請求能夠在3-5毫秒的延遲內完成。“這可能是國內唯一一家能夠支援實時索引建庫的知識庫”,吳迪表示。

在抖音內部,這項能力被用來,在幾毫秒到幾十毫秒間,為使用者從數十億乃至上百億的候選影片內容中,篩選出適合給他推薦的幾十條內容。“從百億個候選裡找到Top100,這個能力是抖音的看家本領,(高速精準篩選)這跟企業知識庫的底層需求是完全一致的”。

在企業的外掛知識庫場景中,在技術上,通常需要對數十萬篇文件進行切片、向量化。然後根據指令從數百萬個切片中找到最相關的,這些切片經過排序之後進行大模型做總結和摘要,最後輸出。在這一個完整流程中,對系統能力的要求與影片推薦系統篩選的要求具備的一致性是——都需要根據輸入指令快速而準確地找到對應的內容。吳迪強調,這是許多企業都非常渴望的一種效率。

這三大主要外掛之外,企業級AI應用開發平臺釦子專業版也對外發布。在釦子視覺化靈活編排智慧體的能力基礎上,釦子專業版提供企業級SLA和多種高階特性,使AI應用更易落地,讓企業更專注於透過智慧體創新,驅動業務增長。

拐點將至,大模型落地即將迎來流量爆發

大模型向千行百業落地的程序仍剛剛開啟,吳迪在採訪中坦言,截至目前,大語言模型的呼叫量級仍然不高,但是到2024年年底或2025年初,將會迎來爆發式的拐點。而拐點到來的必要條件,是許多充滿活力的創業公司,或者很多強技術能力、強探索精神的企業已經逐漸找到把大模型用好的感覺了,比如汽車、教育、醫療等等行業的公司。

“現在在我眼中,沒有競爭,只有合作和挑戰”,他認為,無論是火山引擎還是其他的同賽道公司,在拐點到來前,大家需要一起去面對共同的問題:

  • 如何讓大模型滲透到千行百業,而不是停留在一些表面的POC(Proof of Concept,概念驗證)testing?
  • 如何共同將大模型技術推向新的高度?

“這是一個未來五年、十年、十五年的長期旅程。當模型效果、成本、系統這些問題都解決了,剩下的就是千行百業的客戶需要針對自己的場景去想,未來的AI時代下,到底會發生什麼事了。火山方舟只是能夠幫助他們更快、更省地推進這個過程,幫助他們解除一些障礙。”

吳迪表示,在拐點到來前,火山方舟會繼續順應實際需求,在模型效果上取得更好的成績、在系統上做到更加彈性和穩定、在成本上,進一步幫助企業降低難度,支援企業更加自信地嘗試和快速迭代,更加無畏地實驗和創新。

相關文章