大語言模型微調資料競賽,冠-軍!
近日,天池FT-Data Ranker競賽落下帷幕, 天翼雲智慧邊緣事業部AI團隊 (後稱天翼雲AI團隊)憑藉在大語言模型(LLM)訓練資料增強方面的卓越研究, 榮獲大語言模型微調資料競賽——7B模型賽道冠-軍 。
FT-Data Ranker競賽是一場面向大語言模型研究、以資料為中心的競賽,吸引了包括來自北京大學、Hantec等知名高校、研究機構、企業的 近400支優秀隊伍參賽 。天翼雲在激烈的角逐中脫穎而出,展現出強大的技術創新能力。
資料在大語言模型(LLM)的能力打造中發揮著至關重要的作用,更好地構建和處理資料整合為大語言模型領域研究的重點。本次競賽的核心在於 獨立、精確地評估和提升資料集質量,加速形成基準驅動的資料開發流程,增強大語言模型資料處理能力,提高該領域對資料質量和資料最佳化的理解能力。 本次競賽特別關注微調(Fine-tuning)階段的資料,要求參賽者對原始資料集進行清洗、過濾和增強,利用新資料集對特定模型進行微調,並在測試集上進行效能排名。
面向競賽通用選擇任務,天翼雲AI團隊自主構建了資料處理流程,使用多個文件去重、字串過濾運算元對低質的大規模原始語料進行處理,從而 獲得高質量的模型訓練資料 ;同時,面向文字摘要任務,天翼雲AI團隊創新地採用 正規化遷移 (Paradigm Transfer)和 模型能力蒸餾 (Distillation)的方法,在設定模型隨機性為0的前提下,利用生成式模型將原始語料中的問答進行資料處理和遷移,作為摘要資料,間接擴充訓練資料。基於以上方法和策略,團隊在原始語料基礎上構建了一個內容豐富、多樣化的任務訓練集, 幫助模型更好地學習和理解競賽任務 。該方案的 創新性 和 實用性 得到了評委的高度認可。
本次競賽團隊採用的大語言模型訓練資料增強技術,已在天翼雲團隊模型研發和生產業務中廣泛應用。例如,在 天翼雲政務大模型“慧澤” 的研發中,透過廣泛採用 訓練資料增強策略和演算法 來提升模型的各項能力,使得“慧澤“具備了政務知識全面、意圖理解能力強、應用廣泛以及安全可靠等優勢,可高效賦能政策諮詢、政務導辦、12345坐席輔助、智慧辦公等場景,助力提升城市治理水平。
未來,天翼雲將繼續推進人工智慧相關技術創新以及實踐應用,以更加全面、智慧的產品與服務,賦能千行百業數字化轉型。
來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70014251/viewspace-3000521/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 微調大語言模型模型
- 2024年大語言模型的微調模型
- 十分鐘學會微調大語言模型模型
- LLaMA-Factory微調多模態大語言模型教程模型
- 模型微調-書生浦語大模型實戰營學習筆記&大語言模型5大模型筆記
- LoRA:語言模型微調的計算資源最佳化策略模型
- 阿里天池大資料競賽阿里大資料
- 四 阿里大模型接入:模型微調阿里大模型
- 微調大型語言模型進行命名實體識別模型
- 大資料競賽技術分享大資料
- JD-大資料競賽心得大資料
- LoRA大模型微調的利器大模型
- 資料競賽:第四屆工業大資料競賽-虛擬測量大資料
- 大模型微調,長尾場景下的資料如何清洗?大模型
- 微調 Florence-2 - 微軟的尖端視覺語言模型微軟視覺模型
- 基於PyTorch的大語言模型微調指南:Torchtune完整教程與程式碼示例PyTorch模型
- 語言大模型大模型
- 大語言模型模型
- 大語言模型與資料庫故障診斷模型資料庫
- 大廠掀起影片生成「軍備競賽」,AI 真能幹掉好萊塢?AI
- NLP論文解讀:無需模板且高效的語言微調模型(上)模型
- 達觀資料研發“曹植”大語言模型,致力於國產GPT模型模型GPT
- 創新實訓(9)- 大模型的微調大模型
- LLM大模型GPT2微調嘗試大模型GPT
- 通義千問1.5(Qwen1.5)大語言模型在PAI-QuickStart的微調與部署實踐模型AIUI
- 大資料競賽平臺——Kaggle 入門篇大資料
- AI軍備競賽2.0:中美無冕之王爭霸賽AI
- 嘗試上手大模型的有監督微調大模型
- 以圖靈機為師:透過微調訓練讓大語言模型懂執行計算過程圖靈模型
- PAT-B 1059 C語言競賽【模擬】C語言
- 資料競賽Tricks集錦
- 如何評估大語言模型模型
- 持續學習——程式猿的軍備競賽
- 大模型高效開發的秘密武器:大模型低參微調套件MindSpore PET大模型套件
- ASC22世界超算大賽開戰,語言大模型和AI+Science尖端應用成賽題大模型AI
- 大語言模型訓練資料常見的4種處理方法模型
- 什麼是大語言模型(LLM)?模型
- 01-大語言模型發展模型