在科技蓬勃發展的時代浪潮中,人工智慧領域的每一次突破都離不開持續的科研投入和對前沿技術的不懈探索。2023 年,網易伏羲與中國計算機學會(CCF)共同發起了 “CCF - 網易雷火聯合基金”,致力於發揮和利用多方資源優勢,加強與海內外青年學者的科研合作,促進中國人工智慧等領域尖端技術產業的進步,並加快校企合作、技術成果轉化落地。
自成立以來,CCF-網易雷火聯合基金始終致力於推動科研成果的轉化與應用,受到了學者們的廣泛關注與支援。在 2024 中國計算機大會(CNCC2024)上,CCF - 網易雷火聯合基金首批優秀成果重磅釋出。浙江大學軟體學院百人計劃研究員王皓波老師作為基金優秀代表,現場分享了其在基金資助下的課題成果《基於大小模型協同的低資源標註技術》,該技術透過整合大模型與小模型的優勢,為解決資料標註中的低資源困境提供了全新思路,有望在提升標註效率和質量方面帶來顯著突破,助力人工智慧產業實現更高效的資料驅動發展。
以下為王皓波老師的演講實錄:
大家好!非常榮幸能夠在這裡,作為CCF - 網易雷火基金資助專案的成果代表,與大家分享我們在基於大小模型協同的低資源資料標註技術領域的研究成果。我是浙江大學的王皓波。
如果將AI演算法比作“火箭”,那麼資料標註就是推動AI的“燃料”,對訓練模型、提高準確率至關重要。在當前競爭激烈的AI市場,資料標註的效率和質量將直接影響企業和組織的AI應用效果和競爭力。
另一方面,OpenAI釋出的ChatGPT等大模型掀起了一輪研究熱潮。結合了超大規模的模型、資料和算力,大模型初步湧現了通用智慧,對眾多行業形成廣泛的應用潛力。隨著大模型的發展,資料標註也有了新機遇。首先,大模型在垂直領域的應用更需要大量的標註資料,以實現大模型的領域微調。其次,大模型內蘊的通用知識,能夠以低成本構建高質量資料,在資料標註領域將會帶來新的可能性和突破口。
在國內外,以網易有靈眾包平臺為代表的多款產品已將大模型融入標註的過程中。然而,面對垂直領域的產業需求時,通用大模型往往難以直接輸出標註結果,這些標註產品仍需大量藉助人類知識進行資料的標籤、校驗和修復。
在這樣的背景下,我們的研究聚焦於如何利用大模型的強大能力,結合小模型的優勢,實現低資源條件下高效、精準的資料標註。我們的研究得到了CCF - 網易雷火聯合基金的大力支援,這為我們在該領域的探索提供了堅實的保障。
我們在資料標註技術方面的研究是一個逐步深入、演進的過程,下面將與大傢俱體分享。
階段一:魯棒噪聲標籤學習(IJCAI 2023)
首先,我們在魯棒噪聲標籤學習方面開展了工作。
在機器學習中,噪聲標籤問題無處不在,其來源廣泛,如機器生成標註資料時的不準確性以及眾包標註者經驗不足等。經典的噪聲標籤學習演算法存在一定侷限性,例如樣本選擇 - 自訓練演算法雖能透過特定方式篩選樣本並進行半監督學習,但僅利用少量正確樣本難以達到理想效果。
基於此,我們在IJCAI 2023上提出了ProMix演算法,該演算法透過創新的progressive selection方式,充分利用乾淨樣本,在樣本選擇過程中先選擇平衡子集,再依據置信度逐步擴大樣本集。同時,演算法中的樣本選擇和半監督學習模組有效解決了樣本不平衡問題,在合成資料集和不平衡噪聲樣本資料集上都取得了卓越成績,成功奪得首屆IJCAI - 噪聲標籤學習挑戰賽全賽道冠軍。
階段二:大小模型協同資料標註(EMNLP 2023)
隨著大模型時代的到來,我們進一步思考如何將大模型與小模型協同應用於資料標註領域。這促使我們開展了FreeAL框架的研究,並發表於EMNLP 2023。
在這個階段,我們發現傳統弱標籤學習存在諸多侷限,如人工成本難以降低、機器標註精度不足以及小樣本學習領域泛化能力較差等問題。FreeAL框架旨在實現無人工主動學習,其核心原理是充分發揮大模型(LLM)和小模型(SLM)各自的優勢。大模型具有豐富知識儲備,雖難以獨立啟用任務相關能力,但可透過生成樣例進行初始標註,利用其強大的生成能力構造上下文學習樣例,從而提高初始標註準確率。隨後,小模型進行魯棒蒸餾,挑選出弱監督訓練中損失較小的樣本,透過半監督學習進一步篩選出乾淨樣本和噪聲樣本,並將其反饋給大模型。大小模型透過協同訓練,不斷迭代最佳化標註結果,直至效能收斂。
FreeAL 總體框架
1.大模型標註
在提升大模型的少樣本學習(few - shot)效能方面,關鍵在於獲取充足的示例樣本。因為此次研究設定為完全不依賴人類標註(Human - Free),在初始標註輪次,獲取有效示例樣本並非易事。為此,我們採用一種策略,即引導大模型自行生成演示(demo)樣本。具體操作流程為,向 ChatGPT 明確告知標籤的定義,並提供若干未標註樣本作為參考示例,使大模型得以學習未標註文字的風格特徵,進而生成與標籤資訊相符的樣本。透過這種方式,我們成功構建了初始的上下文學習(ICL)示例集合,經實驗發現,在部分資料集(如 SUBJ 資料集)中,該方法可使準確率顯著提升 28 個百分點。在後續的標註輪次中,我們將依據小模型篩選後的結果來開展 ICL 操作,從而進一步最佳化標註效果。
2.小模型蒸餾
在小模型蒸餾階段,我們運用了小損失選擇(Small - Loss Selection)策略來挑選乾淨樣本,並結合半監督學習技術開展噪聲標記學習任務。對於熟悉弱監督學習領域的研究者而言,這種方法並不陌生。在小模型訓練過程中,即便篩選出的 “乾淨樣本” 集合中存在少量錯誤樣本,對模型效能提升的影響也較為有限。然而,為了確保在上下文學習(ICL)過程中能夠獲得更為精準的演示樣本集,我們基於損失值對樣本進行逐類精心篩選,此操作旨在充分考慮樣本的多樣性,以增強樣本集的代表性。最終,將篩選所得的樣本反饋至大模型,以便對其進行修復與最佳化。鑑於我們在前期已實施了全量標註,經過兩個輪次的迭代,模型基本能夠收斂至理想狀態,從而實現高效且準確的資料標註。
實驗結果表明,FreeAL在多個任務上表現優異,其中一個引人注目的實驗結果是,在涉及弱監督蒸餾得到的 RoBERTa 模型的實驗中,僅當資料集為樣本數量極少的 SST - 2 和 MR 時,ChatGPT 的表現優於 RoBERTa;而一旦資料集規模稍有增大,RoBERTa 執行上下文學習(ICL)的效果便超越了 ChatGPT。
進一步將 FreeAL 與傳統的主動學習(AL)方法進行對比,發現在特定的一些資料集上,FreeAL 能夠取得超越人類標註結果的卓越成績。
然而,我們也認識到,在實際生產環境中,僅依靠機器標註是不夠的,標註過程離不開人類領域知識的支撐。
階段三:基於大語言模型的協作式自動標註系統 CORAL(VLDB 2024)
基於FreeAL框架,我們進一步研發了CORAL框架,相關成果《CORAL: Collaborative Automatic Labeling System based on Large Language Models》成功入選VLDB 2024(文末掃碼入群即可獲取論文)。
CORAL框架提供了一種協作式自動標註原型系統,旨在減少人工參與並確保高質量的資料標註。透過結合大模型(LLM)和小模型(SLM)的協同工作,CORAL實現了初步的自動化標註流程,並以低成本提供可靠的標籤資料,極大地降低了資料標註的時間和人工成本。
CORAL框架的工作流程包含大小模型協同標註體系、手動精煉模組和迭代過程控制器。其大小模型協同標註體系繼承了FreeAL的優勢,能夠自動形成大量資料標註。手動精煉模組是CORAL的一大特色,它引入了人機協同的標註正規化。透過網易有靈眾包平臺的使用者介面,使用者可以對標註結果進行審查,針對低置信度樣本進行人工校正。這一模組使得使用者能夠專注於處理最具挑戰性的樣本,從而在有限的人工參與下有效提升標註資料的質量。迭代過程控制器則進一步增強了CORAL系統的有效性,它透過採集高置信度樣本,不斷最佳化大模型(LLM)和小模型(SLM)的標註精度,實現標籤質量的持續改進。
目前,我們正在探索將大小模型協同標註系統與網易有靈平臺的AOP體系深度整合。在當前的標註環境中,儘管大模型和小模型的協同已經能夠處理大部分簡單的資料標註任務,但複雜樣本仍需要人類的專業知識和精準判斷。透過這種整合,我們期望構建一個更加高效、智慧的人機協同Agent排程體系。在這個體系中,大小模型協同標註系統能夠精準定位那些尚未得到妥善解決的樣本,然後由網易有靈眾包平臺引入人工干預,進行人機協同標註。人類標註員憑藉其專業知識和經驗,對複雜樣本進行處理,從而實現最佳標註結果。這不僅將提高資料標註的準確性和可靠性,還將推動資料標註技術在更廣泛領域的應用,為人工智慧技術的發展提供更強大的資料支援。
最後,再次感謝CCF - 網易雷火聯合基金的支援,感謝網易伏羲提供的平臺與合作機會,感謝團隊成員的辛勤付出,也感謝各位嘉賓的聆聽!希望我們的研究成果能夠為資料標註領域的發展貢獻一份力量,共同推動人工智慧技術邁向新的高度。
掃碼入群,獲取《CORAL: Collaborative Automatic Labeling System based on Large Language Models》論文