大語言模型微調資料競賽,冠-軍!

天翼雲開發者社群發表於2023-12-18

 

近日,天池FT-Data Ranker競賽落下帷幕, 天翼雲智慧邊緣事業部AI團隊 (後稱天翼雲AI團隊)憑藉在大語言模型(LLM)訓練資料增強方面的卓越研究, 榮獲大語言模型微調資料競賽——7B模型賽道冠-軍


 

 

FT-Data Ranker競賽是一場面向大語言模型研究、以資料為中心的競賽,吸引了包括來自北京大學、Hantec等知名高校、研究機構、企業的 近400支優秀隊伍參賽 。天翼雲在激烈的角逐中脫穎而出,展現出強大的技術創新能力。

 

資料在大語言模型(LLM)的能力打造中發揮著至關重要的作用,更好地構建和處理資料整合為大語言模型領域研究的重點。本次競賽的核心在於 獨立、精確地評估和提升資料集質量,加速形成基準驅動的資料開發流程,增強大語言模型資料處理能力,提高該領域對資料質量和資料最佳化的理解能力。 本次競賽特別關注微調(Fine-tuning)階段的資料,要求參賽者對原始資料集進行清洗、過濾和增強,利用新資料集對特定模型進行微調,並在測試集上進行效能排名。

 

面向競賽通用選擇任務,天翼雲AI團隊自主構建了資料處理流程,使用多個文件去重、字串過濾運算元對低質的大規模原始語料進行處理,從而 獲得高質量的模型訓練資料 ;同時,面向文字摘要任務,天翼雲AI團隊創新地採用 正規化遷移 (Paradigm Transfer)和 模型能力蒸餾 (Distillation)的方法,在設定模型隨機性為0的前提下,利用生成式模型將原始語料中的問答進行資料處理和遷移,作為摘要資料,間接擴充訓練資料。基於以上方法和策略,團隊在原始語料基礎上構建了一個內容豐富、多樣化的任務訓練集, 幫助模型更好地學習和理解競賽任務 。該方案的 創新性 實用性 得到了評委的高度認可。

 

本次競賽團隊採用的大語言模型訓練資料增強技術,已在天翼雲團隊模型研發和生產業務中廣泛應用。例如,在 天翼雲政務大模型“慧澤” 的研發中,透過廣泛採用 訓練資料增強策略和演算法 來提升模型的各項能力,使得“慧澤“具備了政務知識全面、意圖理解能力強、應用廣泛以及安全可靠等優勢,可高效賦能政策諮詢、政務導辦、12345坐席輔助、智慧辦公等場景,助力提升城市治理水平。

 

未來,天翼雲將繼續推進人工智慧相關技術創新以及實踐應用,以更加全面、智慧的產品與服務,賦能千行百業數字化轉型。


來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70014251/viewspace-3000521/,如需轉載,請註明出處,否則將追究法律責任。

相關文章