「中國法研杯」相似案例匹配競賽結果出爐,冠軍方案關鍵點詳解
2019 年 10 月 19 日,第十八屆中國計算語言學大會「中國法研杯」相似案例匹配評測研討會在雲南昆明完美落幕。會上,清華大學劉知遠副教授、中國科學院軟體研究所韓先培研究員、冪律智慧科技有限公司 CEO 塗存超博士等均出席了該會議。
其中,基於大會開展的中國法研杯相似案例匹配評測競賽,由來自支付寶的 AlphaCourt 團隊摘得桂冠,這是一支致力於搭建屬於支付平臺的「網際網路法院」的隊伍。本次大賽中,他們充分運用了資料探勘、深度學習、神經網路等方法,實現了對「多篇法律文書的相似度計算與判斷」等任務的多模型融合、最佳化以及視覺化探索,最終以 71.88 的優績,奪下了本次大賽冠軍!
在大賽中,我們也能看到京東、華宇元典、同濟大學等強勁對手的身影,但究竟 AlphaCourt 團隊是在哪些技術與方法上略勝一籌,才從 711 支參賽隊伍中脫穎而出?雷鋒網 AI 開發者有幸採訪到冠軍團隊,並將其冠軍方案解析如下,也許我們可以一起來找到答案。
劉知遠副教授為一等獎隊伍頒獎
比賽任務簡介
本屆法研杯司法人工智慧挑戰賽主要圍繞「相似案例匹配評測」主題展開,比賽任務則涉及到類案的理解與判斷等問題,其中最具代表性的則是:民間借貸相似案例。如果能透過 AI 技術將大量類案進行分類與判斷等,將大大減少重複性的人力成本等實際問題。
因此,本次的任務第一步是針對多篇法律文書進行相似度的計算和判斷;然後對於每份文書提供文書的標題和事實描述,從兩篇候選集文書中找到與詢問文書更為相似的一篇。其中,相似案例匹配的資料限於民間借貸一類文書。
民間借貸相似案例匹配舉例
在資料集方面,本任務所使用的資料集是來自「中國裁判文書網」公開的法律文書,每組資料由三篇法律文書組成。對於每篇法律文書,僅提供事實描述;對於每份資料,用(A,B,C)來代表該組資料;對於訓練資料,保證文書資料 A 與 B 的相似度是大於 A 與 C 的相似度。
在這樣的賽題背景下,各個參賽團隊開始運用他們的技術方法不斷提高 AI 判斷的準確度。
AlphaCourt 團隊
本次冠軍團隊 AlphaCourt 來自支付寶安全實驗室,參賽成員包括:
-
Kaggle Master 鮑晟霖
-
KDD 2019 冠軍得主易燦
-
帝國理工博士劉星
-
杜克大學碩士葉珩
-
愛丁堡大學碩士林曉彤
這個小組的日常業務是根據使用者反饋的欺詐等風險資訊,透過 AI 演算法分析處理從而更好地防控,保護使用者賬戶安全。這也正是他們隊名「AlphaCourt——智慧法院」的來歷,因為在他們業務範圍內,大家的職能與法院一樣,旨在分配正義,消除不公。
因此我們可以發現,團隊在本次競賽上有兩大主要優勢:
-
一是業務涉及豐富的文字,沉澱了很多文字相關的演算法;
-
二是團隊曾搭建過詐騙案由的知識圖譜,這也更好的幫助他們輕車熟路地構建業務抽象要素框架,並與文字模型結合,豐富了模型的學習維度。
儘管團隊有著豐富、熟稔的經驗和技巧,但除了面臨法律案件中各種的難題,如:案件文字長、案件複雜度高、案情靈活多變、案件分析數值繁多等之外,他們依舊還有需要克服的其它困難及挑戰。
挑戰一:資料構建及句子相似度判定
在比賽過程中,團隊首先面臨的是賽題資料構建形式較少見這一大挑戰。隊長表示,雖然日常工作中他們很熟悉文字分類問題,但賽題是三段文字之間的對比,所以需要一定的轉換。
因此,一開始他們做了一個簡單的假設,把賽題轉化為了一個絕對相似的問題。假定文書資料 A 和文書資料 B 之間是符合絕對的相似,同時文書資料 A 和文書資料 C 之間是符合絕對的不相似,即原先的三元組資料拆分成兩兩文書資料之間是否絕對相似的問題,這樣就可以使用二分類模型來解決此類問題。
但實際上在第二階段檢查資料時,團隊發現之前的絕對相似假設存在一定問題。雖然資料(A,B,C)保證了文書資料 A 與 B 的相似度是大於 A 與 C 的相似度,但是另一條資料中會出現(A,D,B)的情況;當把這兩條三元組樣例同時拆分成兩兩對比相似的資料時,會發現產生資料的標籤存在衝突。
因此,團隊在第一階段使用二分類模型思路的情況下,重新考慮了三元組的相對相似問題。最終,他們採用了損失函式為 Triplet Loss 的 Rank 模型來解決三元組的相對相似的問題,從兩兩文字間的相似距離來評估兩兩文字之間相似度。
兩種模型的思路框架如下圖所示。
解決相對相似問題的模型
挑戰二:文字形式差異
隊長告訴我們,他們日常處理的是使用者自由填寫的文字,資訊稀疏且沒有固定結構,而賽題則是半結構化的法律文書,所以需要構建賽題案由相關的業務抽象特徵。
因此,他們主要參考了合同法、擔保法、婚姻法及相關司法解釋,總結出了原告/被告屬性、擔保型別(一般、連帶)、計息方式、約定借期利率、約定逾期利率、抵押物、借款合意憑據等七個特徵。最終根據可行性以及資料表現,選用了原告被告特徵、擔保特徵、利息特徵等特徵。
原告被告特徵包括原告是否屬於公司、原告人數、被告是否屬於公司和被告人數;
擔保特徵包括文書中是否包含擔保人、擔保人個數、文書中是否包含抵押物和抵押物的個數;
利息特徵包括文書中是否包含利息和對利息金額的轉換。其他業務特徵包括文書中被告間是否存在夫妻關係和被告的死亡情況;
具體提取的結構化特徵如下圖所示:
具體提取的結構化特徵
雖然這些工作與建模關係不大,但在結果上證明了這些業務抽象特徵確實會帶來不錯的增益;同時,從參賽方案來看,這也是其他參賽對手沒有特別重視的細節之處。對於這一點的把控,不禁讓人感嘆:這確實是「細節決定成敗」最有力的說明!
挑戰三:模型最佳化
本次比賽有 711 支隊伍,共計 1003 位參賽者。激烈的競爭是在所難免的,而且在比賽過程中前幾名之間的分數差距基本都在 5 以內,互相你追我趕,頗有劍拔怒張之勢。因此,AlphaCourt 團隊也在不斷對模型進行最佳化,其中主要使用了兩個 Trick。
-
模型融合
第一個 Trick 是模型融合;團隊嘗試將 Bert 模型作為 Baseline 模型,然後對 Bert 模型進行進一步最佳化。最佳化方案包括:
對 Bert 模型內部的網路層輸出進行提取,透過提取最後二層或三層中每層的第一個狀態輸出向量,嘗試與原先的 Bert 模型的輸出進行拼接,可以得到一個更加全面的特徵向量,如下圖(2)(3)所示;
結合正規表示式提取的業務抽象特徵和 TF-IDF 提取文字資料的詞頻統計等結構化特徵,與 Bert 模型的輸出進行拼接,結合結構化特徵的特徵合理性得到更加最佳化的特徵向量,如下圖(4)所示;
Bert 模型的除了輸出特徵向量外還提供了模型的狀態資訊,該模型狀態資訊可連線更深層的網路模型,如 Bi-LSTM 和 Bi-GRU 網路模型。透過更深層的網路模型可以提取文字的更高維度特徵。透過池化和提取隱藏層狀態等操作聚合 Bi-GRU 網路層的輸出特徵和隱藏層狀態的特徵,如下圖(5)所示。
五種網路模型
透過以上構造的五種網路模型,進行多模型離線的多模型融合可以進一步提高相似匹配的準確率,如下圖所示。
多模型離線的多模型融合
-
Triple Loss 過擬合
另一個 Trick 是 Triple Loss 過擬合的解決;由於樣本按照三元組形式輸入,即預設詢問文書資料 A 與文書資料 B 的相似度大於詢問文書資料 A 與文書資料 C 的相似度。此時在訓練過程中可能會出現一種極端的情況,即模型結果無腦輸出 B,就會出現過擬合問題。
AlphaCourt 團隊在這裡使用的解決方案是部分修改文字資料 B 和文字資料 C 的順序,使一半的資料變成(A,C,B)形式的三元組資料,即可以同時存在 B 和 C 的標籤。具體的操作流程如下所示。
解決 Triple Loss 過擬合方案
在構建訓練和驗證資料集 Datasets 時,在第奇數個三元組樣本附帶一個變數 op,值為 1。將第偶數個三元組樣本的文書資料 B 和文書資料 C 進行交換,並附帶一個變數 op,值為-1。構建的資料集經過資料載入器 Data Loader 會預設將資料集進行打亂,因此不會學習到資料的標籤規律。
最後學習到特徵向量經過 Triplet Loss 計算時,只要計算過程中附帶了變數 op,調整兩者歐式距離的正負結果,就可以保證 Triplet Loss 的計算結果保持正確。
以上則為本次冠軍方案最核心部分的解讀,除此之外,關於編碼層、特徵互動層、資料增廣、模型預訓練等細節內容詳情,可參考——
GitHub 開原始碼:
AI 更廣泛的應用
從這個大賽我們可以看到,曾經侷限於網際網路領域的 AI 技術,現在也在金融、法律甚至是礦工等領域開始漸漸發光發熱,起到實際作用。而且這也並非唯一一個舉辦法律 AI 大賽的會議,像這樣的比賽還有很多,比如:
Artificial Intelligence for Legal Assistance (AILA)
詳情檢視:
Competition on Legal Information Extraction/Entailment
詳情檢視:
這些比賽都是聚焦於透過 AI 技術來解決法律案由中資料量大、資料繁雜、檢索力誤差等實際問題,我們也透過比賽得到了很多實用的優秀演算法,幫助我們的生活變得更便利與幸福。
之前,我們很容易在網際網路、大資料等領域看到 AI 的身影;而現在,諸如法律、金融、醫療、交通、教育、零售以及文娛等各行各業中,也注入了強勁有力的 AI 實力。這或許也印證到,我們離全民 AI 又更近了一步。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2661586/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 中國人工智慧大賽機器閱讀理解任務冠軍方案出爐~人工智慧
- 中國人工智慧大賽機器閱讀理解任務冠軍方案出爐人工智慧
- PAKDD 2019 AutoML3+競賽結果公佈,解讀冠軍團隊解決方案TOML
- 聯想高校AI精英挑戰賽總冠軍出爐!助力中國迎來智慧變革AI
- 【天池競賽系列】菜鳥-需求預測與分倉規劃初賽冠軍解決方案
- 五百名高手終極對決,北大20人獲獎,2020阿里全球數學競賽結果出爐阿里
- 第 24 屆國際 C 語言混亂程式碼大賽結果出爐
- 中國發布5G研發測試結果關鍵技術已通過驗證
- MySQL show status命令輸出結果詳解MySql
- FastQC結果詳解AST
- jQuery搜尋框關鍵字自動匹配提示詳解jQuery
- 冠軍榮耀,角逐賽道,“移動雲杯”等你來戰!
- 藍橋杯競賽題目:”機器人繁殖“解析及題解機器人
- OKR(目標與關鍵結果)也許是個人管理的最佳方案OKR
- AI模型被「騙」怎麼破?《燃燒吧!天才程式設計師》冠軍團隊解決方案出爐AI模型程式設計師
- 文字匹配相關方向打卡點總結
- Translate Geeks to Chinese 翻譯活動 [網路評選結果出爐 ]
- CorelDRAW輪廓描摹點陣圖結合案例詳解
- UIColletionView效能調研結果UIView
- 中國移動OLTP資料庫招標結果出爐,五大國產廠商中標資料庫
- 資料標註案例分享:搜尋結果相關性匹配標註專案丨曼孚科技
- diff詳解,讀懂diff結果
- MySQL的EXPLAIN命令結果詳解MySqlAI
- "華為杯"華南理工大學程式設計競賽(同步賽) H題解 還沒寫程式設計
- 牛客競賽,GDDU第十屆文遠知行杯新生程式設計競賽,摸魚記(BDEIKL題解,補G,ACFHJ)程式設計
- ACM-ICPC世界冠軍教你如何備戰程式設計競賽ACM程式設計
- emeditor利用書籤功能匯出匹配結果到新檔案
- Kotlin Multiplatform 的首次使用者調查結果出爐啦KotlinPlatform
- List擴充套件方法出錯,this關鍵詞出錯,解決方案套件
- QZEZ第一屆“飯吉圓”杯程式設計競賽程式設計
- 網易 AI Lab 斬獲全球頂級聲紋識別競賽冠軍AI
- Fotify掃描結果Open Redirection解決方案
- 斬獲魯棒性閱讀大賽兩項冠軍,ICDAR 2019冠軍解決方案將開源
- 亞馬遜名人鑑別系統21分鐘即遭破解:GeekPwn對抗樣本挑戰賽冠軍出爐亞馬遜
- 智慧中國杯百萬大獎賽解讀 |今天你打怪了嗎(四)
- AWS 人工智慧黑客馬拉松決賽結果出爐!22 個隊伍激烈角逐,誰才是最後贏家?人工智慧黑客
- 中國計量大學現代科技學院第四屆“中競杯”程式設計校賽(同步賽) F.爬塔(DP)程式設計
- Javascript中this關鍵字詳解JavaScript