浪潮資訊釋出源2.0基礎大模型,千億引數全面開源
北京 2023年11月27日 /美通社/ -- 11 月 27 日,浪潮資訊釋出 " 源 2.0" 基礎大模型,並宣佈全面開源。源2.0基礎大模型包括1026億、518億、21億等三種引數規模的模型,在程式設計、推理、邏輯等方面展示出了先進的能力。
當前,大模型技術正在推動生成式人工智慧產業迅猛發展,而基礎大模型的關鍵能力則是大模型在行業和應用落地能力表現的核心支撐,但基礎大模型的發展也面臨著在演算法、資料和算力等方面的諸多挑戰。源2.0基礎大模型則針對性地提出了新的改進方法並獲得了能力的提升。
演算法方面,源2.0提出並採用了一種新型的注意力演算法結構:區域性注意力過濾增強機制(LFA:Localized Filtering-based Attention)。LFA透過先學習相鄰詞之間的關聯性,然後再計算全域性關聯性的方法,能夠更好地學習到自然語言的區域性和全域性的語言特徵,對於自然語言的關聯語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。
資料方面,源2.0透過使用中英文書籍、百科、論文等高質量中英文資料,降低了網際網路語料內容佔比,結合高效的資料清洗流程,為大模型訓練提供了高質量的專業資料集和邏輯推理資料集。為了獲取中文數學資料,我們清洗了從2018年至今約12PB的網際網路資料,但僅獲取到了約10GB的數學資料,投入巨大,收益較小。為了更高效地獲得相對匱乏的高質量中文數學及程式碼資料集,源2.0採用了基於大模型的資料生產及過濾方法,在保證資料的多樣性的同時也在每一個類別上提升資料質量,獲取了一批高質量的數學與程式碼預訓練資料。
算力方面,源2.0採用了非均勻流水並行的方法,綜合運用流水線並行+最佳化器引數並行+資料並行的策略,讓模型在流水並行各階段的視訊記憶體佔用量分佈更均衡,避免出現視訊記憶體瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對晶片間P2P頻寬的需求,為硬體差異較大訓練環境提供了一種高效能的訓練方法。
源2.0作為千億級基礎大模型,在業界公開的評測上進行了程式碼生成、數學問題求解、事實問答方面的能力測試,測試結果顯示,源2.0在多項模型評測中,展示出了較為先進的能力表現。
源 2.0 採用全面開源策略,全系列模型引數和程式碼均可免費下載使用。
程式碼開源連結
論文連結
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2997547/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 技能大模式Skill Model重磅釋出 浪潮"源"大模型加速AI生產力升級模式大模型AI
- 開源大模型王座再易主,1320億引數DBRX上線,基礎、微調模型都有大模型
- 開源React Native元件庫beeshell 2.0釋出React Native元件
- 騰訊開源專案TARS首次全面釋出PHP版本PHP
- G6 2.0 開源釋出 — 裂變·聚變
- G6 2.0 開源釋出 -- 裂變·聚變
- 開源模型 Zephyr-7B 釋出——跨越三大洲的合作模型
- 螞蟻集團、浙江大學聯合釋出開源大模型知識抽取框架OneKE大模型框架
- 開源 DJ 軟體 Mixxx 2.0 版釋出
- 開源專案buffalo2.0最終版正式釋出
- AI浪潮下12大開源神器介紹AI
- 開源demo| ARCall 小程式開源示例釋出
- 全面升級後的開源雲盤不瞭解一下麼?藍眼雲盤 2.0 釋出
- 開源創新 源起潮“蜥”——龍蜥社群走進浪潮資訊 MeetUp 即將開幕
- 開源醫療大模型排行榜: 健康領域大模型基準測試大模型
- Meta開源Llama 3釋出
- 開源| 呼叫ARUICalling開源元元件釋出UI元件
- Moment:又一個開源的時間序列基礎模型模型
- 《機器學習數學基礎》已開源,附完整下載!機器學習
- 將開源進行到底:Facebook引爆下輪開源浪潮
- 打好資訊資源管理的堅實基礎
- 【開源】騰訊 Omio 釋出 - 全面相容 IE8 和移動端
- 【開源】騰訊 Omio 釋出 – 全面相容 IE8 和移動端
- 中國科協釋出 2021 開源創新榜,阿里巴巴 2 大開源社群、5 大開源專案上榜阿里
- 【開源】釋出一個基於JavaFX的小遊戲:CrazyAlphaJava遊戲
- 使用Jitpack釋出開源Java庫Java
- 微軟走近開源,釋出開源協同工作實驗室(轉)微軟
- 大資料基礎軟體廠商請小心“開源”陷阱!大資料
- Android開源專案釋出jCenterAndroid
- 使用jitPack釋出android開源庫Android
- 開源框架FastJsp-3.1.1釋出框架ASTJS
- 佟輝:回顧中國的開源浪潮
- 技術圈週刊|谷歌釋出最新開源 AI 大模型 Gemma,筆記本上即可執行谷歌AI大模型Gemma筆記
- 監控系統是資訊資源管理的基礎
- Facebook釋出PyTorch 1.1,開源AI模型優化簡化工具BoTorch & AxPyTorchAI模型優化
- 微軟小語言模型Phi-3-Mini-4K-Instructk開源釋出微軟模型Struct
- Microsoft.NET Framework 全面開源ROSFramework
- All in 液冷 浪潮資訊釋出全棧液冷產品全棧