“千言資料集:文字相似度”權威評測,網易易智榮登榜首

網易數帆發表於2021-06-22

日前,網易數帆旗下人工智慧技術與服務品牌——網易易智在CCF和百度聯合舉辦的“千言資料集:文字相似度”行業測評中擊敗多支勁旅,榮登榜首。

文字相似度,即識別兩段文字在語義上是否相似,在自然語言處理(NLP)領域是一個重要研究方向,目前已大規模商用於智慧客服、資訊檢索、新聞推薦等領域,如已服務超40萬企業客戶的網易七魚智慧客服,背後就有這項技術的支撐。


榜單中“網易杭州研究院”為網易易智團隊

 

知識沉澱與技術積累立功,網易易智文字相似度雄踞榜首

“千言資料集”系列評測是中文自然語言處理領域的大規模賽事,其中文字相似度開源專案收集了來自哈爾濱工業大學的LCQMC、BQ Corpus,以及谷歌的PAWS-X(中文)等公開資料集,期望對文字相似度模型效果進行綜合的評價,推動文字相似度在自然語言處理領域的應用和發展。

據瞭解,這些公開資料集在相關論文的支撐下,對現有的公開文字相似度模型進行了較全面的評估,具有較高的權威性,代表了文字相似度技術研究的最高水準。


哈爾濱工業大學(深圳)LCQMC資料集任務示例

在本次文字相似度測評中,網易易智結合了多年技術經驗積累,和大規模預訓練語言模型的運用,再加上對比賽任務進行的針對性優化,取得了目前的優異成績。

網易易智的參賽隊伍表示,這次比賽任務主要有2個難點。一個難點是BQ Corpus資料集是金融領域的資料,該資料集涉及到金融行業的大量知識,而通用預訓練語言模型難以捕捉到特定行業的潛在知識。為此,團隊採用半監督學習等方式,從網易內部多個業務場景中挖掘出泛金融領域知識,進而獲得金融領域預訓練語言模型,最終在該任務上較大幅度領先於其他參賽團隊。

而另一個難點是PAWS-X資料集的質量問題,該資料來自於英文的翻譯,翻譯內容與真實中文有出入,尤其會對演算法造成干擾的是實體詞(如人名、地名)的翻譯不統一,即相同的人名,前一個句子保留英文原文,後一個句子卻音譯為中文。針對這個資料特點,網易易智利用自研的NER(命名實體識別)服務進行實體詞的識別與歸一化,並利用自研的中文文字糾錯服務糾正其中的錯別字、語病之後,再進行模型訓練,最終在該任務上也取得了第一。

 

網易易智助力七魚機器人精準理解客戶訴求

網易易智基於文字相似度等系列NLP技術構建了一套智慧對話系統,服務集團內部多個業務,如嚴選客服、IT諮詢等,並與七魚業務聯合打造智慧客服機器人產品,服務集團外部客戶。

以九陽股份有限公司為例,其核心訴求之一,是通過高效、精準、人性化的諮詢服務保障使用者的購物體驗,如使用者對於小家電產品功能、操作、價格、優惠活動、養護、維修等問題的諮詢。

為此,九陽接入了網易七魚線上機器人,在問題匹配率可高達90%以上的基礎上,提供更懂使用者的智慧服務體驗。**基於網易易智文字相似度演算法,七魚線上機器人實現了核心語義匹配,從而達成BOT、FAQ等功能。此外,通過語義匹配技術,七魚線上機器人還實現了對知識庫的智慧挖掘與生成。**藉助這些能力,七魚線上機器人可以高效、精準地解答不同場景下的客戶問題。

而在快遞領域,申通快遞也接入了七魚智慧客服應對快遞諮詢問題,這是一個與上述金融、小家電完全不同的領域,然而運用網易易智同樣的技術原理,智慧客服快速實現了相似的效果。

 

網易易智NLP促進數字業務創新

文字相似度技術的商業價值並不侷限於智慧客服領域。據網易易智負責人介紹,文字相似度技術大類歸於文字匹配,除了對話引擎裡,該技術在網易內部還有更多的應用落地,如網易雲音樂中的評論智慧挖掘、直播/短視訊中的歌詞匹配以及知識公路業務中的視訊選題相似度檢測等創新解決方案應用

而從整個技術領域來看,作為一門讓機器理解人類語言的技術,NLP素有“人工智慧皇冠上的明珠”之稱,既是難以攻克的前沿課題,也對數字業務創新具有重要的意義。除了文字相似度,網易易智也一直在探索NLP技術與業務創新的最大公約數,並取得了一些階段性的成果。

例如,語義解析技術在軟體測試中的使用,顯著提升自動化水平、實現降本增效,這對於數字化軟體質量的保障非常有利;文字糾錯技術在網易新聞等文稿審校場景中大規模使用,將拼寫及語法等錯誤及時發現並予以糾正,大幅提升使用者閱讀體驗,同時降低內容生產的工作量。

未來,網易易智還將聯合網易數帆旗下有數團隊,探索NLP在大資料系統中的應用,如支援業務人員與分析系統的自然語言互動,使得企業能夠更好地發揮大資料的價值。

 

相關文章