LLAMA3.1資料處理

风生水起發表於2024-07-25

4.2.3資料處理和質量控制
鑑於我們的大部分訓練資料都是模型生成的,因此需要仔細清理和質量控制。
資料清理。在早期階段,我們觀察到資料中常見的一些不良模式,例如過度使用表情符號或感嘆號。因此,我們實施了一系列基於規則的資料刪除和修改策略來過濾或清理有問題的資料。例如,為了減輕過度道歉的語氣問題,我們識別了過度使用的短語(如“對不起”或“我道歉”),並仔細平衡了資料集中此類樣本的比例。
資料修剪。我們還應用了一系列基於模型的技術來刪除低質量的訓練樣本,並提高整體模型效能:
•主題分類:我們首先將Llama 3 8B微調為主題分類器,並對所有資料進行推理,將其分為粗粒度桶(“數學推理”)和細粒度桶(“幾何和三角學”)。
•質量評分:我們使用獎勵模型和基於Llama的訊號來獲得每個樣本的質量評分。對於基於RM的分數,我們認為RM分數前四分之一的資料質量很高。
對於基於Llama的分數,我們提示Llama 3檢查點對每個樣本進行三分制評分,用於一般英語資料(準確性、指令遵循和音調/表達)和兩點制評分
對於編碼資料(Bug識別和使用者意圖),並將獲得最高分數的樣本視為高質量。基於RM和Llama的分數有很高的不一致率,我們發現將這些訊號組合在一起,可以在我們的內部測試集上獲得最佳的召回率。最終,我們選擇被RM或基於Llama的過濾器標記為高質量的示例。
•難度評分:因為我們也有興趣對模型中更復雜的例子進行優先順序排序,所以我們使用兩種難度指標對資料進行評分:Instag(Lu等人,2023)和基於Llama的;對於Instag,我們提示Llama 3 70B對SFT提示進行意圖示記,其中更多的意圖意味著更復雜。我們還提示Llama 3用三分制來衡量對話的難度(Liu等人,2024c)。
•語義去重:最後,我們執行語義去重(Abbas等人,2023;Liu等人,2024c)。我們首先使用RoBERTa(Liu等人,2019b)在每個叢集內完成對話
按質量分數×難度分數進行排序。然後,我們透過迭代所有排序的示例來進行貪婪選擇,並且只保留與叢集中迄今為止看到的示例具有最大餘弦相似性的示例小於閾值的示例。

4.1.2獎勵建模
我們在預訓練的檢查點之上訓練了一個涵蓋不同能力的獎勵模型(RM)。訓練目標與Llama 2相同,除了我們刪除了margin loss,因為我們觀察到資料縮放後的改進在減少。在Llama 2之後,我們在過濾出具有相似反應的樣本後,將所有偏好資料用於獎勵建模。除了標準的偏好對(選擇、拒絕)響應外,註釋還為某些提示建立了第三個“編輯後的響應”,其中對選擇的響應進行了進一步編輯以進行改進(見第4.2.1節)。因此,每個偏好排名樣本都有兩到三個排名明確的答案(編輯>選擇>拒絕)。在訓練過程中,我們將提示和多個響應連線成一行,隨機打亂響應。這是將響應放在單獨的行中並計算分數的標準場景的近似值, 但在我們的消融中,這種方法在不損失準確性的情況下提高了訓練效率。