ChatGPT風口下的技術“狂飆”,天翼雲榮登ZeroCLUE榜首

天翼雲開發者社群發表於2023-02-20

最近 ChatGPT火了!寫程式碼、寫情書、寫文章、做題……它啥都會。在ChatGPT強大的功能背後,離不開業內不斷精進的人工智慧技術的支撐。零樣本學習就是ChatGPT的核心技術之一。

近日, 天翼雲智慧邊緣事業部 AI團隊在中文語言理解零樣本學習權威榜單ZeroCLUE中拔得頭籌, 這標誌著天翼雲 AI在認知智慧領域處於行業領先地位。

 

天翼雲智慧邊緣事業部 AI團隊部分成員合影


ZeroCLUE是中文語言理解零樣本學習的權威榜單,在學術和工業界有著廣泛影響力,吸引了IDEA研究院、OpenBMB等眾多高水平科研單位和企業競相角逐。 天翼雲 AI團隊以76.217的總分奪得榜單桂冠, 成績 大幅領先第二名。 同時,天翼雲 AI團隊在榜單“BUSTM任務”中佔據榜首, 成為該任務中唯一突破 90分的團隊。

ZeroCLUE 榜單(2023.02.15),其中Human表示人類測評成績

零樣本學習( Zero-Shot Learning)是自然語言處理技術中重要的研究方向,旨在突破全監督學習正規化,讓AI演算法在資料稀缺、標註困難的場景中更好地發揮作用。


ZeroCLUE榜單包含EPRSTMT(電商評論情感分析)、CSLDCP(科學文獻學科分類)、TNEWSF(新聞分類)、IFLYTEKF(應用描述主題分類)、OCNLIF(自然語言推理)、BUSTM(對話短文字匹配)、CHIDF(成語閱讀理解)、CSLF(摘要判斷關鍵詞判別)、CLUEWSCF(代詞消歧)9大任務,涵蓋了當今自然語言處理技術的主流研究方向。參賽者的排名則由上述9個任務的平均得分決定。下圖展示了上述任務的具體資料細節。


本次打榜競賽中,天翼雲 AI團隊的演算法核心之一是採用了 “統一多項選擇”(Unified Multiple Choice)的思想,將不同正規化的自然語言處理任務統一轉化為多項選擇任務,使得在訓練和微調階段,每個任務都能從其它資料與任務中獲益。


例如在 TNEWSF(新聞分類)任務中,原任務正規化為:

text = "女明星自拍,迷之角度竟這麼好看,美吸引一切事物"

predicted label= "娛樂"


Unified Multiple Choice正規化為:

text = "女明星自拍,迷之角度竟這麼好看,美吸引一切事物"

question = '下面新聞屬於哪一個類別?'

choice = ["故事", "文化", "娛樂", "體育", "財經",…]

answer = "娛樂"


基於以上思想對每個任務進行正規化的設計和統一,並結合開源模型進行演算法最佳化和測試,最終不僅能夠增強模型在本任務中的效能,也提升了其處理不同任務的泛化能力。


本次天翼雲 AI團隊在競爭激烈的ZeroCLUE打榜中脫穎而出,源於其在認知智慧領域的技術沉澱,以及對業務場景的深度理解和應用。


值得一提的是,天翼雲的零樣本學習技術在實際業務中已獲得了廣泛應用。例如, 在知識平臺中使用零樣本學習技術對大量非結構化資料進行知識挖掘和管理;在缺乏樣本的場景中使用零樣本學習技術提升底層演算法的知識抽取能力,進而提高平臺上層智慧搜尋、推薦、問答等業務效能。     
未來,天翼雲將繼續推進人工智慧技術的創新突破,加快打造原創技術策源地,以更多的數字技術應用,賦能千行百業數字化轉型。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70014251/viewspace-2935911/,如需轉載,請註明出處,否則將追究法律責任。

相關文章