業內首次，彩雲科技釋出基於DCFormer架構通用大模型雲錦天章

新闻助手發表於2024-11-13

原文網址 : https://www.jiqizhixin.com/articles/2024-11-13-13

2017年，谷歌釋出《Attention Is All You Need》論文，首次提出Transformer架構，掀開了人工智慧自然語言處理（NLP）領域發展的全新篇章。Transformer架構作為神經網路學習中最重要的架構，成為後來席捲全球的一系列通用大模型如ChatGPT、Gemini的底層技術支撐。而提升Transformer的執行效率也成為人工智慧領域的研究熱點，2024年4月，谷歌最近一次更新了Transformer架構，提出了Mixture-of-Depths（MoD）方法，使得訓練後取樣過程中提速50%，成為Transformer架構提速升級的又一重要事件。

同樣在今年，一家來自國內的人工智慧企業彩雲科技，在國際機器學習領域的頂級會議ICML（國際機器學習大會）上，釋出全新大模型論文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在該論文中，彩雲科技團隊首次釋出DCFormer架構，並在基於DCFormer打造的模型DCPythia-6.9B上，實現了在預訓練困惑度和下游任務評估上都優於開源Pythia-12B。這意味著，DCFormer模型在效能上，實現了對Transformer模型1.7-2倍的提升。

11月13日，彩雲科技在北京總部與媒體進行一場主題為“From Paper to App”的溝通會。會上，彩雲科技CEO袁行遠，就通用大模型未來進化之路，與人工智慧的落地場景等熱點話題進行了交流，並正式推出了首款基於DCFormer架構開發的通用大模型雲錦天章，與此同時，彩雲科技旗下AI RPG平臺彩雲小夢，也成為首款基於DCFormer架構開發的AI產品。

微信圖片_20241113165138

只有模型效率和智慧度提升 才能實現真正的AGI

溝通會現場，袁行遠首先向參會者展示了一個ChatGPT o1的問答：“假設ChatGPT4每天響應使用者約2億個請求，消耗超過50萬千瓦時的電力。假設全球網路都使用ChatGPT作為訪問入口，ChatGPT每天消耗多少電力？另外按照這個速度發展下去，到2050年全球人工智慧的耗電量會達到目前地球發電能力的多少倍？”ChatGPT o1給出的答案是，“到2050年，全球人工智慧的耗電量可能會達到目前地球發電能力的8倍”。

同樣的問題，在今年2月份的世界政府峰會上，英偉達CEO黃仁勳有更為誇張的表述，“假設計算機的速度永遠不會變快，我們可能需要14個不同的行星、3個不同星系、4個太陽為這一切（AI）提供燃料。”AI對能源的強大需求在業內已經是共識，英偉達致力於透過提升硬體來提升AI效率，降低能耗；而袁行遠則認為，改善大模型底層架構，提升人工智慧執行效率，是改變AI能源困局的更優路徑。

“Scaling Law告訴我們，隨著算力的提升，模型更大、資料更多，模型效果會越來越好，但與之相應的，能耗也會越來越高，在Scaling Law失效，人工智慧實現之前，或許我們地球的能源就已經無法支撐了。”袁行遠表示，“沒有效率的提升，AI就是鏡花水月。”

彩雲科技團隊構建DCFormer框架，提出可動態組合的多頭注意力（DCMHA），替換Transformer核心元件多頭注意力模組（MHA），解除了MHA注意力頭的查詢選擇迴路和變換回路的固定繫結，讓它們可以根據輸入動態組合，從根本上提升了模型的表達能力，由此實現了對Transformer架構1.7—2倍的效能提升。

今年的ICML會議上，彩雲科技團隊的3篇論文，在錄用平均分為4.25-6.33的情況下，獲得平均7分的高分，併成為國內唯二受邀參加維也納ICML 2024登臺演講的企業，另一家則是華為。

袁行遠表示：我們的工作表明，Transformer架構距離“理想模型架構”還有很大的提升空間，除了堆算力堆資料的“大力出奇跡”路線，模型架構創新同樣大有可為。往小了說，在大模型領域，利用效率更高的模型架構，小公司也可以在與世界頂級人工智慧企業的對抗中取得優勢。往大了說，模型效率的提升，可以有效地降低人工智慧升級迭代的成本，加速AI時代的到來。

雲錦天章問世 首個基於DCFormer架構的通用大模型

作為國內最早做LLM（大語言模型）的公司之一，彩雲科技在2017年就已經開始做NLP和大模型方面的工作。目前，彩雲科技旗下有彩雲天氣、彩雲小夢、彩雲小譯三款面向C端使用者的AI產品，是國內為數不多能夠實現盈利的人工智慧公司。

“世界最強的小說續寫通用模型。”溝通會上，袁行遠向大家展示了首個基於DCFormer架構的通用大模型雲錦天章。“這個成語是比喻文章極為高雅、華美，和我們的大模型想要實現的效果有共通之處。”袁行遠介紹，雲錦天章可以實現在虛構世界觀的基礎上，賦予小說人物程式設計、數學等基礎能力，可以高速針對大量文字進行擴寫、縮寫，針對文章風格進行大容量更換，同時兼具其他模型的問答、數學、程式設計等基礎能力。

而在應用端，擁有四百萬使用者的彩雲小夢，也迎來了基於全新DCFormer架構的V.3.5版本。與之前的版本相比，彩雲小夢V3.5整體流暢性和連貫性提升了20%，支援前文長度由2000字提升至10000字，故事背景設定最長長度高達10000字。“這意味著，在故事創作或者與人工智慧對話中，人工智慧能夠記住之前發生的事情，記住之前故事裡發生的細節，人物記得自己明確的目標，並且會根據劇情及時進行反思修正。在做到自主創作的同時，發散性收斂，不會天馬行空，人物性格前後一致，故事邏輯性更強。”

彩雲科技媒體溝通會宣講PPT_01

“深度對話，超長記憶，邏輯清晰。”袁行遠總結綵雲小夢V3.5的特徵，“我們的目標是為使用者打造指尖伴侶定製夢境。”袁行遠表示，彩雲小夢的使用者單次使用時長，累計使用時長在同類產品中都處於遙遙領先的地位，“對話超過400句，你會發現彩雲小夢真正的魅力。”

袁行遠介紹，公司接下來將繼續加大對DCFormer的研究和投入：“一方面有打破‘國外做技術層，國內做應用層’刻板印象的情懷所在，一方面也是為公司自有產品應對市場競爭，實現快速迭代升級和能力領先的現實需要。”

彩雲科技招聘啦~~（旗下產品：彩雲天氣、彩雲小譯）
2018-05-14
亞馬遜雲科技創新大會 | 雲基礎架構
2022-04-01
亞馬遜架構
業界首發｜阿里雲重磅釋出雲原生架構白皮書
2020-07-22
阿里架構
Google釋出pQRNN新NLP模型：基於投影的高效模型架構
2020-09-22
GoRNN模型架構
天雲資料釋出私域資料大模型Elpis 將大模型能力應用於產業原生動力即工程領域
2023-04-21
大模型產業
OceanBase 4.0釋出：首次實現單機分散式一體化架構、全面上雲
2022-08-19
分散式架構
JuiceFS 在多雲架構中加速大模型推理
2024-08-23
UI架構大模型
信通院聯合綠盟科技等釋出業界首份《雲原生架構安全白皮書》
2021-05-28
架構
阿里雲基於ALB實現灰度釋出
2024-11-02
阿里
Spring Cloud雲架構-Restful 基礎架構
2019-03-01
SpringCloud架構REST
【重磅】華為雲盤古大模型5.0，正式釋出！
2024-06-22
大模型
馳騖科技基於亞馬遜雲科技“智慧湖倉”架構打造完整營銷閉環
2021-08-16
亞馬遜架構
最IN的雲原生架構，阿里雲 Serverless 事件匯流排 EventBridge 重磅釋出
2020-11-04
架構阿里Server事件
基礎架構遷雲（三）
2020-03-06
架構
基礎架構遷雲（一）
2020-02-28
架構
基礎架構遷雲二（）
2020-03-04
架構
亞馬遜雲科技釋出十大最受中國出海企業青睞的雲服務
2022-05-23
亞馬遜
基於雲邊協同架構的五大應用場景革新
2022-11-30
架構
基於 Istio 的灰度釋出架構方案實踐之路
2023-03-10
架構
全新升級！《雲原生架構白皮書 2022 版》重磅釋出
2022-08-11
架構
阿里雲的“終端雲化”實踐，基於ENS進行邊緣架構構建
2022-09-08
阿里架構
Spring Cloud雲服務架構 - 企業分散式微服務雲架構構建
2018-03-05
SpringCloud架構分散式微服務
銀行基於雲原生架構下的 DevOps 建設
2022-09-15
架構dev
Redis雲端架構深入淺出
2018-08-14
Redis架構
雲架構儉約之道：企業架構七大黃金法則
2023-12-25
架構
容器雲架構–瞭解 Kubernetes 網路模型
2022-05-22
架構模型
整合spring cloud雲服務架構 - 企業分散式微服務雲架構構建
2018-11-22
SpringCloud架構分散式微服務
如何基於阿里雲搭建適合初創企業的輕量級架構？
2018-12-12
阿里架構
定位產業AIGC化加速器 “雲闕AI”大模型垂直應用正式釋出
2024-03-18
產業AIGC大模型
天翼雲4.0創新成果釋出！科技創新賦能安全普惠
2022-05-23
構築雲原生安全技術底座 | 綠盟科技釋出《雲原生安全技術報告》
2021-01-14
基於雲服務的個人網站架構設計
2020-06-23
網站架構
CatchAdmin 釋出，基於 Element 重構
2020-09-09
亞馬遜雲科技釋出Amazon Amplify Studio
2021-12-15
亞馬遜
（四）整合spring cloud雲服務架構 - 企業分散式微服務雲架構構建
2018-11-22
SpringCloud架構分散式微服務
溢彩雲
2019-05-11
一圖看懂雲棲大會「雲原生」重磅釋出
2021-11-04
天翼雲釋出雲原生關係型資料庫TeleDB for openGauss
2022-03-09
資料庫

業內首次，彩雲科技釋出基於DCFormer架構通用大模型雲錦天章

相關文章