【重磅乾貨】大模型時代,開發者雲上成長指南

华为云开发者联盟發表於2024-03-29

本文分享自華為雲社群《【重磅乾貨】大模型時代,開發者雲上成長指南》,作者:華為雲社群精選。

2024年最熱的技術關鍵詞,非大模型莫屬。面對這樣一個超級“技術網紅”,在一切皆可大模型的時代,開發者能否緊跟它的發展步伐,立於技術的潮頭顯得至關重要。

如何充分利用雲上的基礎設施,讓大模型開箱即用?
如何藉助輔助開發工具,讓程式碼編寫過程更加高效,事半功倍?
當行業應用遇上大模型,會碰撞出怎樣的創意火花?
……

綜合權威機構釋出的大模型相關的技術趨勢洞察,我們精選了四大熱門技術方向,並輔之以華為雲相關技術服務作為典型案例,幫助開發者釐清大模型時代需要掌握的關鍵技術, 透過這份大模型開發者成長指南,助力大家在這波技術熱潮中先人一步。

AI增強開發——CodeArts Snap寫程式碼事半功倍

當大模型技術應用到軟體開發領域,它正在顛覆傳統的軟體工程,在Gartner的2024技術趨勢報告中,提到了AI增強開發,它指的是用生成式AI、機器學習等AI技術協助軟體開發人員精選應用設計、編碼和測試。

CSDN釋出的《AI開發者生態報告》中提到,近90%的開發者已經使用程式碼生成工具; 其中,35%的開發者每天都使用程式碼生成工具。

毋庸置疑,大模型正在開啟軟體開發的新正規化,尤其是在自動化方面,基本上超越了傳統工具,為軟體研發效率的提升帶來質的變化。程式設計和應用開發的門檻逐漸降低,應用開發能力便捷逐漸擴充套件,全民開發者的時代正在來臨。

但與此同時,由於生成的內容難以限制,一些“不安全”或者“不應該”出現在生成結果中的程式碼會出現在生成結果中,導致市場上各AI輔助程式設計工具質量不一。

源於華為自身的研發實踐,華為雲基於大模型技術,學習了1300多萬篇經典的技術文件、760億行精選程式碼,打造了智慧開發助手CodeArts Snap。

它基於智慧生成和智慧問答兩大核心場景提供了支援多種主流IDE的外掛,覆蓋程式碼生成、研發知識問答、單元測試用例生成、程式碼解釋、程式碼註釋、程式碼翻譯、程式碼除錯、程式碼檢查等八大研發場景。

CodeArts Snap的程式碼生成,就像一位聰明的機器人,開發者在編寫重複性程式碼、快速原型開發等多個場景中只需輸入自然語言,就能生成完整程式碼邏輯,並準確率最佳。它的程式碼解釋專治開發者的“閱讀困難症”,無論是學習新程式語言、分析他人程式碼,還是最佳化程式碼、故障排除,即可將程式碼複製黏貼到工具中,實現快速分析程式碼並自動生成詳細的解釋文件。

靈感到程式碼只需“彈指間”即可實現。

華為雲CodeArts Snap的“全場景程式碼智慧生成”能力,其核心技術沉澱於華為雲PaaS技術創新Lab與華為諾亞方舟實驗室聯合打造的PanGu-Coder程式碼大模型中。比如,針對函式級的程式碼生成與補全任務,CodeArts Snap分別釋出了引數量為3億和26億兩個規模可用的生成功能。當給定函式名並用自然語言描述需要實現的功能後,模型即可生成完整的函式功能程式碼。

同時,CodeArts Snap在各階段均採取了針對性措施,有效規避了業界產品普遍帶來的程式設計安全隱患。例如為避免開原始碼帶來的系統性風險,在資料預處理階段,預訓練資料對可能產生問題的licence涉及的程式碼進行了精細的過濾,從根本上杜絕開源licence風險。

Codearts Snap現在已經開啟了公測,已經有一些開發者在華為雲開發者社群分享了他們的👉 體驗心得,也歡迎開發者👉 前來體驗

行業大模型——盤古大模型讓企業開發者更高效

垂直領域應用是大模型的主戰場。隨著生成式AI技術的飛速發展,各行各業都將迅速整合大模型的能力創造全新的應用,催生出全新的商業價值。

華為雲盤古大模型正式對外發布以來,也一直頗受關注,盤古大模型提供5個基礎大模型(自然語言、視覺、多模態、預測、科學計算)+N個行業大模型+X個場景模型的三層解耦架構, 天然具備良好的生態開放性,透過分層的AI能力及工具,成就不同行業開發者百模千態的需求。

其中,華為雲L0盤古基礎大模型提供100多個能力集,各項能力集互相解耦,可以透過API直接呼叫。企業開發者可以根據業務場景需要,選擇所需的能力集,使用盤古大模型工作流,快速開發行業場景應用。也可以在L0或L1盤古大模型的基礎上,透過對自有資料的二次訓練快速訓練出自己專屬的行業大模型。

為了加速和簡化行業大模型從開發到落地,華為雲還提供了盤古大模型工程套件,包括資料工程、模型開發和應用開發三大套件, 基於此,完成一個千億行業模型端到端開發,從過去需要5個月縮短到現在1個月,整體速度提升5倍。

在氣象領域,華為雲盤古氣象大模型已正式上線歐洲中期天氣預報中心和香港天文臺地球官網,並攜手深圳市氣象局、泰國國家氣象局等打造高精度區域氣象預報大模型,利用人工智慧技術提升氣象災害預警能力。在2023年汛期,盤古氣象大模型成功預測了瑪娃、泰利、杜蘇芮、蘇拉等強颱風路徑。

除此之外,盤古大模型在醫療行業的落地,讓醫生為患者提供更高效的健康管理服務;在電商行業智慧化生成產品文案、廣告創意,讓跨境電商的生意更好做……

開發者可以👉 點選連結前往申請體驗試用盤古大模型。

向量資料庫——GaussDB向量資料庫是大模型的超級“外腦”

大模型時代,為了支援模型的高效執行,開發者需要掌握雲原生基礎設施技術。這波洶湧而來的大模型浪潮,也必然會催生基礎設施的革新,其中最具有代表性的就是資料庫的升級。

基於海量資料訓練而來的大模型,往往會遇到一些令人啼笑皆非的問題,比如對不知道的知識一本正經的胡說八道,或因為訓練的時間的滯後導致無法獲取到最新實時的知識,從而給出過時的答案。

面對大模型在訓練過程中出現的準確性和實時性難題,向量資料庫是最佳的選擇。它是一種專門用來處理向量嵌入(Vector Embedding)的資料庫,透過比較向量值並找到彼此相似的值來索引和檢索資料,適用於處理如文件、影像、影片和網頁等非結構化資料。

如果把大模型比作人的大腦,那麼向量資料庫就如同大模型的“外腦”。

  • 在實時性方面,向量資料庫可滿足秒級甚至毫秒級資料更新的需求,解決大模型預訓練或微調都需要天甚至月級以上時間,導致知識庫新鮮度相對滯後的問題,減少大模型的“幻覺”。

  • 在隱私性方面,透過向量資料庫本身的許可權控制,能真正實現隱私資料自主可控不出端。只需使用通用大模型外掛向量資料庫,即可解決私有資料注入大模型帶來的安全和隱私問題。

  • 在上下文限制方面,向量資料庫具備歷史資料持久化的能力,同時持久化的資料可以透過內建的ANN演算法做相似性查詢,返回最相關內容,從而突破大模型上下文限制,實現長期記憶。

華為雲在向量資料庫和DB4AI領域積累頗深,從2018年開始就啟動以圖搜圖專案,儲備了相關技術,並於2023年正式對外發布華為雲GaussDB向量資料庫。

GaussDB向量資料庫結合語義Embedding技術,能基於客戶實際的文件和規範回答問題,結果更準確。並且可以將已推理過的問題進行快取,當相同問題再出現時,不需要經過大模型推理即刻返回結果,大幅減少算力成本。

與業界主流向量資料庫相比,GaussDB向量資料庫具備千億級大規模向量資料快速查詢更新的能力,檢索規模提升10倍;內建ANN-Benchmark榜單效能排名第一的華為ANN索引演算法,查詢時延<10ms,響應速度提升2倍;且具有千維查詢能力,查詢結果更精準。

當前,已使用GaussDB資料庫的開發者可以透過升級體驗GaussDB向量資料庫的所有功能,實現無感知式擴容和一站式部署,降低學習和部署成本。同時,GaussDB資料庫生態成熟、社群活躍,相關的工具和擴充套件十分成熟可靠,👉 點選連結前往讓向量資料庫的使用無後顧之憂。

AI算力——昇騰AI雲服務助力開發者落地大模型應用

根據CSDN釋出的《AI開發者生態報告》調查,除了大模型技術,生成式AI、算力也是開發者最關注的技術突破方向之一。

算力是訓練大模型的基礎,大模型的湧現,使得AI算力的需求出現指數級的增長。研究表明,大引數量、大資料量、大計算量已經成為大模型表現好的主要因素。

在infoq釋出的《中國軟體技術發展洞察和趨勢預測研究報告》中,提到了雲forAI新階段:在AI模型訓練和應用生成的過程中,更要充分利用雲的資源彈性,對異構算力的便捷管理能力等技術手段,提供工程高效率、成本可觀測、彈性可預測、結果可複製的AI模型生成流水線。

為支援百模千態穩健發展,華為雲在貴安、烏蘭察布、蕪湖3大AI算力中心上線了昇騰AI雲服務,讓AI算力即開即用。

華為雲昇騰AI雲服務支援萬卡超大規模叢集,萬億級引數大模型分散式並行訓練,大幅提升訓練效率;提供更長穩的AI算力服務,千卡訓練30天不中斷,長穩率達到90%,斷點恢復時長不超過10分鐘;提供盤古大模型100+能力集、100+內化後的開源大模型,讓大模型開箱即用。

為了釋放昇騰硬體算力,昇騰AI異構計算架構CANN釋出更開放、更易用的CANN 7.0版本, 全面相容業界的AI框架、加速庫和主流大模型,同時透過大顆粒運算元深度融合、Kernel排程策略最佳化、通訊併發流水等技術手段,解決大模型訓練核心問題,使能大模型效能深度最佳化。

同時升級昇騰Ascend C程式語言,提供大模型融合運算元開發能力,可支撐周級完成大模型典型融合運算元開發,效能同比單運算元提升5倍以上。Ascend C遵循C/C++標準規範,並透過編譯器編譯和執行時排程,直接執行在昇騰系列硬體,可高效實現自定義創新演算法。

為了讓開發者能夠更加便捷地將AI算力應用實踐到各種創新場景,華為聯合香橙派發布了基於昇騰的Orange Pi AIpro, 提供8/20TOPS算力,能覆蓋生態開發板者的主流應用場景。滿足大多數AI演算法原型驗證、推理應用開發的需求,可適用於AI邊緣計算、深度視覺學習及影片流AI分析、影片影像分析、自然語言處理、智慧小車、智慧家居等領域,👉 點選連結前往快速上手Orange Pi AIpro。

當前,華為雲的AI Gallery社群已經聚合資料集、模型、實踐3大類等10萬+AI資產,其中的昇騰AI雲服務“百模千態”專區,提供基於異騰AI雲服務適配的業界主流開源大模型, 易用開發工具和超強算力,豐富的應用開發工具鏈已經全部實現了雲化,免去繁瑣的配置流程,實現一鍵接入,即開即用助力開發者快速建立模型應用,👉 點選連結前往

最後

大模型的湧現,我們得以窺見技術的無限潛能。它不僅在實際應用中顯著提升了開發者的工作效率,也預示著通用人工智慧時代的迫近。“工欲善其事,必先利其器”,在技術奇點即將來臨的時刻,開發者們更應深入理解與其相關的前沿技術,華為雲將持續助力企業和開發者建立自己的大模型應用,在大模型時代先人一步。

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章