“千言資料集：文字相似度”權威評測，網易易智榮登榜首

網易數帆發表於2021-06-22

原文網址 : https://www.cnblogs.com/163yun/p/14919952.html

日前，網易數帆旗下人工智慧技術與服務品牌——網易易智在CCF和百度聯合舉辦的“千言資料集：文字相似度”行業測評中擊敗多支勁旅，榮登榜首。

文字相似度，即識別兩段文字在語義上是否相似，在自然語言處理（NLP）領域是一個重要研究方向，目前已大規模商用於智慧客服、資訊檢索、新聞推薦等領域，如已服務超40萬企業客戶的網易七魚智慧客服，背後就有這項技術的支撐。

榜單中“網易杭州研究院”為網易易智團隊

知識沉澱與技術積累立功，網易易智文字相似度雄踞榜首

“千言資料集”系列評測是中文自然語言處理領域的大規模賽事，其中文字相似度開源專案收集了來自哈爾濱工業大學的LCQMC、BQ Corpus，以及谷歌的PAWS-X（中文）等公開資料集，期望對文字相似度模型效果進行綜合的評價，推動文字相似度在自然語言處理領域的應用和發展。

據瞭解，這些公開資料集在相關論文的支撐下，對現有的公開文字相似度模型進行了較全面的評估，具有較高的權威性，代表了文字相似度技術研究的最高水準。

哈爾濱工業大學（深圳）LCQMC資料集任務示例

在本次文字相似度測評中，網易易智結合了多年技術經驗積累，和大規模預訓練語言模型的運用，再加上對比賽任務進行的針對性優化，取得了目前的優異成績。

網易易智的參賽隊伍表示，這次比賽任務主要有2個難點。一個難點是BQ Corpus資料集是金融領域的資料，該資料集涉及到金融行業的大量知識，而通用預訓練語言模型難以捕捉到特定行業的潛在知識。為此，團隊採用半監督學習等方式，從網易內部多個業務場景中挖掘出泛金融領域知識，進而獲得金融領域預訓練語言模型，最終在該任務上較大幅度領先於其他參賽團隊。

而另一個難點是PAWS-X資料集的質量問題，該資料來自於英文的翻譯，翻譯內容與真實中文有出入，尤其會對演算法造成干擾的是實體詞（如人名、地名）的翻譯不統一，即相同的人名，前一個句子保留英文原文，後一個句子卻音譯為中文。針對這個資料特點，網易易智利用自研的NER（命名實體識別）服務進行實體詞的識別與歸一化，並利用自研的中文文字糾錯服務糾正其中的錯別字、語病之後，再進行模型訓練，最終在該任務上也取得了第一。

網易易智助力七魚機器人精準理解客戶訴求

網易易智基於文字相似度等系列NLP技術構建了一套智慧對話系統，服務集團內部多個業務，如嚴選客服、IT諮詢等，並與七魚業務聯合打造智慧客服機器人產品，服務集團外部客戶。

以九陽股份有限公司為例，其核心訴求之一，是通過高效、精準、人性化的諮詢服務保障使用者的購物體驗，如使用者對於小家電產品功能、操作、價格、優惠活動、養護、維修等問題的諮詢。

為此，九陽接入了網易七魚線上機器人，在問題匹配率可高達90%以上的基礎上，提供更懂使用者的智慧服務體驗。**基於網易易智文字相似度演算法，七魚線上機器人實現了核心語義匹配，從而達成BOT、FAQ等功能。此外，通過語義匹配技術，七魚線上機器人還實現了對知識庫的智慧挖掘與生成。**藉助這些能力，七魚線上機器人可以高效、精準地解答不同場景下的客戶問題。

而在快遞領域，申通快遞也接入了七魚智慧客服應對快遞諮詢問題，這是一個與上述金融、小家電完全不同的領域，然而運用網易易智同樣的技術原理，智慧客服快速實現了相似的效果。

網易易智NLP促進數字業務創新

文字相似度技術的商業價值並不侷限於智慧客服領域。據網易易智負責人介紹，文字相似度技術大類歸於文字匹配，除了對話引擎裡，該技術在網易內部還有更多的應用落地，如網易雲音樂中的評論智慧挖掘、直播/短視訊中的歌詞匹配以及知識公路業務中的視訊選題相似度檢測等創新解決方案應用。

而從整個技術領域來看，作為一門讓機器理解人類語言的技術，NLP素有“人工智慧皇冠上的明珠”之稱，既是難以攻克的前沿課題，也對數字業務創新具有重要的意義。除了文字相似度，網易易智也一直在探索NLP技術與業務創新的最大公約數，並取得了一些階段性的成果。

例如，語義解析技術在軟體測試中的使用，顯著提升自動化水平、實現降本增效，這對於數字化軟體質量的保障非常有利；文字糾錯技術在網易新聞等文稿審校場景中大規模使用，將拼寫及語法等錯誤及時發現並予以糾正，大幅提升使用者閱讀體驗，同時降低內容生產的工作量。

未來，網易易智還將聯合網易數帆旗下有數團隊，探索NLP在大資料系統中的應用，如支援業務人員與分析系統的自然語言互動，使得企業能夠更好地發揮大資料的價值。

中文文字相似度計算工具集
2018-04-19
文章相似度檢測，相似度檢測工具，原創度檢測工具
2020-06-10
大規模文字相似度計算
2018-07-09
榮譽 | 榮登2021信創領軍企業100強！萬里資料庫實力獲權威機構認可
2021-12-30
資料庫
文字相似度計算之餘弦定理
2019-05-13
系統學習NLP（十七）--文字相似度
2019-03-13
文字相似度 HanPL漢語言處理
2024-08-05
2021年10月券商App行情重新整理及交易體驗評測報告，興業證券榮登榜首！
2021-11-12
APP
網易易盾獲資料中心聯盟（DCA）頒發“網路治理能力評測證書”
2019-08-29
源1.0大模型登頂中文語言能力評測基準CUGE榜首
2022-06-09
大模型
中文標題相似度檢測
2023-02-16
【網易易盾】網易易盾效能測試自動化建設
2023-03-15
伽馬資料4月報告：同比增24.4%創歷史新高《王者榮耀》再登榜首
2020-05-18
java實現兩個文字相似度 simHash 實現
2020-09-24
Java
文章相似度檢測工具哪個好？怎麼讓文章相似度變低？
2020-06-01
基於HBase構建千億級文字資料相似度計算與快速去重系統
2021-09-09
中科聲龍榮獲國家權威檢測質量合格品牌
2021-11-17
螞蟻集團獲得Spider冠軍，登上兩項NL2SQL權威榜單榜首
2022-11-25
IDESQL
橫空出世一週年，百度ERNIE再奪權威語義評測5項世界冠軍
2020-03-27
中文短文字摘要資料集
2021-09-09
【資料集】Maple-IDS——網路安全惡意流量檢測資料集
2024-07-15
英文社交媒體網站影片網站評論資料集語料庫
2024-08-06
網站
java中利用hanlp比較兩個文字相似度的步驟
2019-05-06
JavaHanLP
綠盟全流量威脅分析解決方案榮獲“2019年度金智解決方案獎”
2020-03-11
百科建立需要權威網站背書，哪些網站屬於權威網站？
2022-12-20
網站
1526萬 QphH ！螞蟻自研資料庫 OceanBase 登頂 TPC-H 權威榜單
2021-05-24
資料庫
ChatGPT風口下的技術“狂飆”，天翼雲榮登ZeroCLUE榜首
2023-02-20
ChatGPT
網易易盾榮獲“年度最佳內容稽核服務商”獎
2019-05-18
軟體測試之Web測試知識分享，權威的軟體測評機構如何收費?
2023-03-30
Web
蜂巢再獲權威認可 | 一個被甲方、乙方都認可的測評
2022-11-14
中文自然語言處理工具集：分詞，相似度匹配
2018-04-03
自然語言處理分詞
Golddata如何採集需要登入/會話的網站資料？
2019-04-05
Go會話網站
極光大資料：2018年手機遊戲行業資料王者榮耀遇冷仍居榜首
2018-12-04
大資料遊戲行業
HTML5權威指南——CSS的長度
2020-10-23
HTMLCSS
NLP segment-05-文字相似度計算 similarity java 開源實現
2024-11-02
MILAJava
《硬核機甲》發售首周榮登日服PS商店下載榜榜首
2019-07-03
軟體效能測試包含哪些測試型別?權威第三方軟體測評中心分享
2022-09-30
型別
外匯平臺全維度評測｜EBC金融集團優缺點分析評價
2021-08-23

“千言資料集：文字相似度”權威評測，網易易智榮登榜首

知識沉澱與技術積累立功，網易易智文字相似度雄踞榜首

網易易智助力七魚機器人精準理解客戶訴求

網易易智NLP促進數字業務創新

相關文章