浪潮資訊釋出源2.0基礎大模型,千億引數全面開源

全球TMT發表於2023-11-27

北京 2023年11月27日 /美通社/ --  11 27 日,浪潮資訊釋出 " 2.0" 基礎大模型,並宣佈全面開源。源2.0基礎大模型包括1026億、518億、21億等三種引數規模的模型,在程式設計、推理、邏輯等方面展示出了先進的能力。

當前,大模型技術正在推動生成式人工智慧產業迅猛發展,而基礎大模型的關鍵能力則是大模型在行業和應用落地能力表現的核心支撐,但基礎大模型的發展也面臨著在演算法、資料和算力等方面的諸多挑戰。源2.0基礎大模型則針對性地提出了新的改進方法並獲得了能力的提升。

演算法方面,源2.0提出並採用了一種新型的注意力演算法結構:區域性注意力過濾增強機制(LFA:Localized Filtering-based Attention)。LFA透過先學習相鄰詞之間的關聯性,然後再計算全域性關聯性的方法,能夠更好地學習到自然語言的區域性和全域性的語言特徵,對於自然語言的關聯語義理解更準確、更人性,提升了模型的自然語言表達能力,進而提升了模型精度。

資料方面,源2.0透過使用中英文書籍、百科、論文等高質量中英文資料,降低了網際網路語料內容佔比,結合高效的資料清洗流程,為大模型訓練提供了高質量的專業資料集和邏輯推理資料集。為了獲取中文數學資料,我們清洗了從2018年至今約12PB的網際網路資料,但僅獲取到了約10GB的數學資料,投入巨大,收益較小。為了更高效地獲得相對匱乏的高質量中文數學及程式碼資料集,源2.0採用了基於大模型的資料生產及過濾方法,在保證資料的多樣性的同時也在每一個類別上提升資料質量,獲取了一批高質量的數學與程式碼預訓練資料。

算力方面,源2.0採用了非均勻流水並行的方法,綜合運用流水線並行+最佳化器引數並行+資料並行的策略,讓模型在流水並行各階段的視訊記憶體佔用量分佈更均衡,避免出現視訊記憶體瓶頸導致的訓練效率降低的問題,該方法顯著降低了大模型對晶片間P2P頻寬的需求,為硬體差異較大訓練環境提供了一種高效能的訓練方法。

源2.0作為千億級基礎大模型,在業界公開的評測上進行了程式碼生成、數學問題求解、事實問答方面的能力測試,測試結果顯示,源2.0在多項模型評測中,展示出了較為先進的能力表現。

2.0 採用全面開源策略,全系列模型引數和程式碼均可免費下載使用

程式碼開源連結

論文連結


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2997547/,如需轉載,請註明出處,否則將追究法律責任。

相關文章