大模型基礎應用框架(ReACTSFTRAG)技術創新及零售業務落地應用

京东云开发者發表於2024-03-14

一、前言

2023年,大語言模型以前所未有的速度和能力改變我們對智慧系統的認知,成為技術圈最被熱議的話題。但“百模大戰”終將走向“落地為王”,如何將大語言模型的強大能力融入實際業務、產生業務價值成為致勝關鍵。

在零售場,大模型應用面臨的核心挑戰包括以下三點:

(1)模型缺乏零售領域的專業知識,建設業務專屬大模型訓練成本高

(2)模型內容生產伴有幻覺,而檢索海量業務資訊又缺乏有效技術,檢索成本高

(3)在商家問答等多流程複雜業務場景下,模型缺乏自主規劃能力,需要大量人工干預

為了應對上述三點挑戰,九數演算法中臺推出了一整套大語言模型應用解決方案,一種融合基於ReAct框架的AI Agent、SFT(指令微調)與RAG(檢索增強生成)技術的應用框架,不僅賦予大模型學習領域知識的能力,還顯著提升了模型的自主決策和資訊處理精確度,為業務人員高效落地大模型的微調、部署和應用提供了落地保障。


九數演算法中臺大模型基礎應用框架

二、高效微調(SFT)

通用大模型雖然在處理通用知識方面表現出色,但缺乏針對零售垂直領域的知識理解。為此,需要引入經過人工標註的領域資料,對已完成預訓練的通用大模型進行微調,從而得到具有該領域知識的零售垂域大模型。這個過程就是“有監督微調(Supervised Fine-Tuning)”,簡稱SFT

2.1 SFT流程介紹

SFT的流程包括資料生產、模型選型、模型微調、效果驗證幾個環節,每一步都存在相應的技術挑戰:

(1)資料生產:建立用於微調預訓練模型的高質量資料集,資料集質量對模型訓練的效果至關重要。在零售場,京東沉澱了豐富的領域資料,比如電商營銷策略、消費者行為資料、商品資訊資料等,這些資料往往格式不統一、噪聲多,如何以這些業務資料為基礎,高效構建可用於微調訓練的資料集,是資料生產環節的痛點。

(2)模型選型:根據對中文的支援程度、引數量級、效能等選擇合適的預訓練模型作為微調的起點。高速發展的開源社群為業務方提供了大量可供選擇的預訓練模型,但不同模型擅長不同任務,需要實驗對比模型表現。而開源模型存在樣本標註、模型標準不統一的問題,將開源方案應用在企業環境中也需要一定的適配工作量,給業務方帶來了較高的模型選型成本

(3)模型微調:使用準備好的資料集對選定的預訓練模型進行微調。訓練時需要設定適當的學習率、批次大小和訓練週期等引數,同時監控模型的效能,如損失函式和準確率等指標。在算力資源緊缺的背景下,不少業務方面臨算力資源不足的問題,如何用最小的算力資源實現最優的模型訓練效能至關重要

(4)效果驗證:使用獨立的驗證資料集對模型進行測試,評估模型訓練效果。關鍵是建立系統的模型評估指標,並選擇合適的方法高效進行效果評估


SFT流程介紹

2.2 九數演算法中臺SFT框架的優勢

九數演算法中臺透過自研的SFT高效微調框架,從高質量資料集的構建到靈活的模型選擇,訓練過程中的算力最佳化,到效果驗證,都提供了創新的解決方案,確保了SFT技術的高效實施。主要優勢如下:

(1)資料生產:透過使用開源基座大模型能力,構建通用大模型資料增強(LLM Data Augmentation,簡稱LDA)工具,使用場景覆蓋Self-Instruct、Query擴充套件,Query2Doc,Doc2Query等。幫助業務方高效建立可用於SFT訓練的標準樣本集。

(2)模型選型:整合15個左右的主流LLM模型(如言犀、ChatGLM,Llama等),統一模型的樣本標準和訓練模式,實現一份樣本在多模型間隨意切換;同時,開源LLM模型經過中臺工程師的適配,可在九數的環境下開箱即用,幫助業務方靈活進行模型選型實驗。

(3)模型微調

支援方法廣:支援對LLM模型的預訓練(Pretrain)和高效微調(SFT),微調方面支援全參微調(Full-Parameter Fine-Tuning)和LoRA等引數高效微調PEFT方法(Parameter-Efficient Fine-Tuning )。支援人類反饋強化學習RLHF訓練(Reinforcement Learning from Human Feedback),支援PPO(Proximal Policy Optimization)、DPO(Direct Preference Optimization)等強化學習演算法。

訓練效能高:透過編譯最佳化、運算元最佳化、網路和IO最佳化等方法,相比純開源的程式碼效能提升40%左右;支援70B+超大規模模型微調;

支援SFT模型蒸餾:建設模型知識蒸餾元件,在模型效果無損或損失較小的同時縮小模型規模,降低模型線上執行的成本,幫助業務方節約算力資源,未來可在端上使用。

(4)效果驗證:支援高效能批次離線推理與客觀+主觀評估方式。透過手動融合kernel、triton編譯最佳化、通訊壓縮等手段,提升批次離線推理效能。透過建立客觀評估維度與使用者自定義主觀維度,實現生成效果驗證。

目前,九數演算法中臺自研SFT框架已於京東內部多個業務試點應用,實現SFT技術的低成本應用。

三、檢索增強生成(RAG)

大型語言模型透過監督式微調(SFT)補充了特定領域知識的不足,但在獲取時效性知識、減少內容幻覺以及確保資料安全等方面依然存在挑戰。在零售場景中,無論是來自C端使用者的商品諮詢,還是來自B端商家的平臺規則諮詢,對生成答案的時效性、專業度、準確性要求都更高,還需要大模型具備多輪對話的理解能力。

檢索增強生成技術(Retrieval-Augmented Generation,簡稱RAG)的引入,有效減輕了這些問題。RAG的核心是根據使用者提問(Query)從外部資料庫檢索相關資訊,並基於此生成回答(Answer),相當於給大模型裝上了“知識外掛”基礎大模型不用再訓練即可隨時呼叫特定領域知識。這不僅提升了回答的時效性和準確性,還增加了答案的可解釋性和可擴充套件性。此外,企業可以將資料庫在本地維護,無需上傳至開源模型,確保了資料安全性。

當使用者詢問“某兩款不同品牌手機有什麼不同時”時,RAG技術透過索引,為大模型“外掛”兩款手機不同引數和屬性資料、最新熱門趨勢等知識庫,透過檢索技術在商品知識庫中找到準確的商品引數等資訊,透過大模型生成能力對比兩款手機在哪些重要維度有所不同,高效、精準地向使用者輸出兩款手機差異性。

3.1 RAG流程介紹

RAG的流程包括檢索資料增強、檢索過程增強、效果增強三個階段。

(1)檢索資料增強階段:構建用於檢索的語料庫的過程,包括“資料提取與處理—文字向量化—建立索引—匯入向量資料庫”幾步。這一階段的關鍵是如何透過各類技術,構建有效的語料庫,以提供給模型用於生成文字的資訊。

(2)檢索過程增強階段:根據使用者查詢(Query)在語料庫中進行檢索,召回相關資訊,並透過LLM服務生成摘要內容的過程。檢索環節中,透過文字檢索與向量檢索的方式計算問題與語料庫內文件塊之間相似度來,召回相似度最高的top K個文件塊。為了提升檢索的精度,往往會在首次召回後加上過濾(Filter)、排序(Rank)等環節。摘要生成環節中,結合prompt工程,利用大模型對使用者問題與檢索完成的答案進行總結,生成答案摘要。為提升結果準確度,大模型可根據問題範圍提前進行SFT微調訓練。

(3)效果增強階段:針對RAG檢索和生成結果可進行效果評估,透過客觀+主觀方式對RAG模式進行批次標註與評分,評價結果可用於進一步最佳化檢索質量與生成質量。


RAG流程介紹

3.2 九數演算法中臺RAG技術優勢

九數演算法中臺的RAG技術覆蓋檢索資料增強、檢索過程增強、效果增強三個階段,力求透過全流程技術方案的設計,提升RAG的效率和效能。

九數演算法中臺RAG架構

(1)檢索資料增強階段

①知識庫構建

基於Data Warehouse構建知識庫,透過增強資料粒度、對齊最佳化等最佳化策略增強知識庫可用性。增強資料粒度策略加強資料來源可讀性。透過推行資料標準化流程,去除無關資訊、特殊字元、歧義及重複內容,對資料內容進行修訂和簡化,重點建設結構化知識索引,促進資訊的高效檢索與利用。對齊最佳化策略解決使用者問題與文件內容不一致問題,引入假設性問題生成機制,針對語料庫中每個文件設計相應的問題(Query)並嵌入文件中,提升使用者問題/Query的召回率,有效解決了文件間的對齊挑戰。

②資料索引最佳化

資料索引最佳化旨在透過對索引結構最佳化和後設資料資訊整合等策略提升索引內容的質量,確保資料檢索的效率和精度。索引結構最佳化策略提升知識庫內答案相關上下文被召回機率,透過塊最佳化技術(Chunk optimization)調整切詞大小和引數,最小化噪聲資料的影響;還可以透過改變索引路徑,並引入圖結構資訊來進一步最佳化索引結構。新增後設資料資訊策略提升檢索相關性,特別是在處理時間敏感的資料如電子郵件查詢時,強調最新資訊的相關性而不僅是內容相似性。透過在索引塊中嵌入關鍵後設資料屬性(如時間戳和章節編號等結構標識),進行精細化過濾,從而提升檢索效率與相關度。

③最佳化Embedding模型

Embedding模型將使用者查詢(Query)和語料塊(Doc)文字轉換成為向量。透過選取動態Embedding(Dynamic Embedding)模型,並微調Embedding(Fine-tuning Embedding),最佳化Embedding效果,提高其精確度和適應性。

透過選取動態Embedding模型,可將使用者查詢Query與知識庫內容結合上下文內容轉化為向量並進行匹配,提升匹配精準度。動態Embedding模型利用基於Transformer架構的深度學習模型、細粒度的語義捕獲和多工學習能力,根據對同一詞彙的上下文理解,動態調整其向量表示,使得模型能夠生成反映全域性語義特徵的向量,最佳化了詞義多樣性和歧義詞彙的精準表徵。為提升模型對垂域內容理解,可微調Embedding,透過對預訓練Embedding模型(如BGE、Voyage等)進行微調訓練,增強模型在垂直領域任務中的表現。包括針對特定領域微調,幫助模型捕捉到該領域的術語和微妙差異,以及針對具體的檢索任務微調,使之精準匹配使用者查詢(Query)和相關文件塊(Doc)。

相容向量資料庫

支援包含Vearch、Milvus、Pinecone等在內的多種向量資料庫。

(2)檢索過程增強階段

檢索過程增強檢涉及對搜尋引擎檢索流程的綜合最佳化,包括深度理解使用者查詢(Query)、改進召回策略、最佳化過濾和排序機制以及改進生成摘要等環節。

①查詢(Query)改寫

透過知識推理、關鍵詞識別、屬性抽取等技術,深入理解使用者查詢(Query)意圖,並透過查詢改寫(Query Rewrite)提高檢索的相關性和精度。

②召回策略

召回策略最佳化的目標包括準確率提升效能提升兩方面。準確率提升方面,我們採用多跳檢索(Multi-hop Retrieval)和相關性召回策略,執行多次連續且逐漸深入的檢索,以便從不同的資料來源中獲取更全面深刻的資訊,從而提升召回的準確率;效能提升方面,引入檢索結果快取機制(Retrieval Cache)以最佳化系統效能,減少查詢響應時間。

③過濾/排序(Filtering/Ranking)

採用排序演算法和過濾機制,根據使用者行為和上下文資訊對召回的文件進行精準排序,排除不相關或低質量的內容。

④摘要生成

利用提示詞工程(Prompt Engineering)技術,給使用者提供相應的Prompt模板,最佳化文件摘要的自動生成結果;並透過模型微調(Fine-tuning)提升生成摘要的相關性和豐富度。

(3)效果增強階段

①建立效果評估機制

效果增強階段旨在透過多輪評估,明確現有RAG方案的最佳化方向,最佳化最終生成效果。我們支援主觀+客觀相結合的評估方式,針對檢索質量和生成質量分別建立相應的評估維度,使用多種主流評估框架對RAG效果進行評估。

②針對檢索質量最佳化

針對檢索質量,採取檢索策略選擇檢索精度調優的雙重途徑。基於評估反饋,篩選與當前資料集和任務目標最匹配的檢索策略,包括關鍵詞匹配、語義搜尋、圖資料庫檢索等,並對檢索引數進行精細調整,以最佳化檢索結果的準確率和相關度。

③針對生成質量最佳化

針對生成質量,進行模型微調資料結構重組兩方面最佳化。根據評估效果反饋,進一步微調Embedding模型和生成模型,精確適配特定語料庫和任務。此外,最佳化的資料結構與處理流程,以提高模型的學習效率和生成質量。

(4)聯邦RAG

除上述常規RAG流程外,針對當前私域資料分散,私域資料無法在保護資料隱私的前提下參與大模型訓練、RAG檢索等問題,京東試點聯邦RAG模式,將聯邦學習(Federated Learning)和RAG相結合,支援使用者私域資料在本地構建知識庫,延續聯邦學習資料可用不可見原則,支援異構資料分散式安全模型訓練與微調,實現保障私域資料隱私的聯邦RAG模式。

四、AI智慧體(AI Agent)

透過SFT+RAG技術,已經可以實現相對固定流程複雜業務問題的解決。面向未來,九數演算法中臺致力於實現“基於意圖的結果指定”這一全新的產品互動方式,透過AI Agent(智慧體)賦予大模型自主規劃和執行能力,高效解決多流程複雜的業務問題。

4.1 AI Agent介紹

AI Agent可以理解為:一個可以感知環境並能夠基於當前場景做出決策的“智慧體”。當下大模型應用大多僅具備類似ChatGPT 的對話式能力,無法自主執行復雜任務。為了擴充大模型的能力,可以為其新增各類元件(如Planning/Proflie /Memory/Action等),實現複雜任務的拆解、規劃和執行。AI Agent常見元件如下:

①Planning:將複雜的任務分解為更易處理的子任務,並制定出有效的策略。

②Proflie:描述了Agent的各種屬性,如角色、目標、能力、知識和行為方式等。

③Memory:儲存和組織從環境中獲取的資訊,以指導未來行動。

④Action:將抽象的決策轉化為具體的行動。


AI Agent四類元件

就互動形式而言,基於大型語言模型的AI代理可以分為兩大類:單一智慧體(Single Agent)和多智慧體系統(Multi-Agents)。

早在20世紀80年代,電腦科學家已著手探索類似AI Agent這樣能與人類互動的智慧軟體。在大模型能力的加持下,AI Agent已成為既具有想象空間,又貼近應用的AI行業爆點。從互動形式上看,基於大語言模型的Agent(LLM-based Agent)可分為單智慧體(Single Agent)和多智慧體系統(Multi-Agents):

(1)單一智慧體Single Agent:在其執行環境中獨立作用,專注於一個特定的任務或服務領域,能夠接收人類以自然語言提出的指令,並基於這些指令執行一些簡單的任務,如資料查詢、日程管理等,扮演人類智慧助手的角色。目前比較成熟的產品包括AutoGPT、BabyAGI等等。

(2)多智慧體Multi-Agents:涉及多個Agent協同工作,以解決單Agent難以獨立處理的複雜問題。Agents們有不同的角色和專長,透過有效的協作共同實現目標。協作方式可以是合作型的,即透過共享資訊、觀點和資源來解決問題;也可以是對抗型的,比如透過競爭、談判和辯論來最佳化決策過程,淘汰錯誤策略。這種多元化的互動模式使得多智慧體系統能夠應對更為複雜和動態的環境,展現出比單一智慧體更加強大和靈活的問題解決能力。

4.2 京東零售的AI Agent應用

在複雜業務模型自主規劃層面,京東零售基於ReAct正規化構建Agent LLM,幫助大語言模型理解上下文,精確把握使用者意圖,並在複雜情況下做出決策、執行任務和使用工具。ReAct正規化結合了推理(Reasoning)與行動(Acting)機制,透過生成交替的推理路徑和特定行動,最佳化模型的決策制定和執行流程,以及與外部資源的有效互動。此過程中,推理路徑為模型提供了對行動計劃的追蹤與更新機制,而具體的行動則使模型能夠與外部工具進行直接互動。這種交替機制增強了模型在複雜情景下的決策和多應用排程的精確度。

以常見的商家助手場景為例,隨著越來越多的商家入駐京東平臺,關於平臺入駐規則、產品營銷策略等方面的提問逐漸增多,傳統的智慧客服、人工回覆等方式無法精準回覆商家提問,且運營成本較高。京東零售基於Multi-Agents理念搭建的商家助手大模型線上推理服務架構,打通資料系統、演算法系統和業務系統,不僅能夠幫助商家快速瞭解平臺規則、最佳化經營策略,還能透過自然語言互動提供個性化、多輪次的即時溝通服務。這一系統的核心是演算法層多個定製的AI Agents,每個Agent都有專門角色和功能,可以呼叫不同的工具來解決相應的問題。例如,當商家就如何提升某個商品的銷量提出問題,AI Agent首先對商家提問進行語義理解,精準識別出商家的具體需求,然後呼叫商品資訊查詢的API介面,快速獲取所需的資料和資訊,並據此給出個性化的銷量提升建議。

商家助手大模型線上推理服務架構

目前京東零售的Agent LLM已經應用於零售業務知識庫構建,成功服務於商家、消費者、企業、門店等多類的使用者群體,涵蓋多種複雜使用場景,並支援透過工具呼叫來解決多流程的複雜業務問題。

五、結語

綜上,九數演算法中臺的大模型基礎應用框架融合基於ReAct框架的AI Agent、SFT(指令微調)與RAG(檢索增強生成)技術,顯著提高了大語言模型在零售業務的應用效率和效果。透過這一系列技術融合和創新,京東零售成功地將大模型的強大能力應用於人、貨、場場景中,在人場,提供面向使用者與商家的智慧助手服務,如:商家助手、使用者增長等;在貨場,提供面向商品的知識問答服務,如:知識問答等;在場域,提供面向場域的智慧運營服務,如:輿情風險挖掘、資料分析等。零售大模型應用不僅提升了使用者體驗,最佳化了運營效率,還為零售行業的數智化轉型提供了有力支撐,展現了大模型技術在零售領域廣泛應用的巨大潛力和價值。

相關文章