在一些領域裡,人工智慧的發展速度比你想象得要快:AI 已經在中國司法領域很多場景廣泛應用了,比如一個名為「法信」的平臺已經覆蓋了全國 30 個省,3200 多家法院。也就是說,全國 90% 的法官都在使用這個平臺查詢法律知識,分析案例資料,精準解決知識檢索需求。
在「智慧法院」的應用場景中,AI 技術還可以輔助法官判案,不僅能夠幫助法官「減負」,提高工作效率,輔助司法管理和決策,還可以實現「資料多跑路,群眾少跑腿」,使人民群眾感受到司法的公平正義。
法信,這套中國最大的法律知識和案例大資料平臺,是由人民法院出版社、中國司法大資料研究院和北京國雙科技有限公司(以下簡稱「國雙」)共同研發,可以高效、精準、便捷地解決法律人的司法資訊檢索與分析需求和海量知識資料供給的匹配問題。
最近,我們與國雙技術長劉激揚、副總裁黃勇堅進行了對話。有關智慧法院的能力與技術,以及國雙的產品和歷史,我們瞭解到了很多有趣的事。
中國最大最權威的法律知識庫
對於法律人來說,法信提供的資訊非常豐富:它可以呈現在某個時間段不同地域和法院處理了什麼型別的案件,具體的案件特徵是什麼,引用的法條是哪些,爭議焦點是什麼;可以直接查詢具體的某位法官、律師或當事人涉及的所有案件,如果當事人是企業的還可以直接查閱企業工商資訊和涉訴資訊。
如果你不是一個專業人士,在法信平臺上,也可以使用最自然的和人交流溝通的方式自由提問。比如:「我買了一座房子,對面又蓋了一座擋了我的陽光怎麼辦?」這樣的問題,都可以得到有用的答案,以及答案的權威來源和法律依據。這個答案的專業性,得益於國雙的知識圖譜技術。國雙透過多年的司法資料和知識梳理積累,讓司法行業知識體系以大規模知識圖譜的形式被儲存起來,並得到有效利用。
在法信平臺智慧應用的背後,是深度學習、知識圖譜等技術的運用,法律專家團隊和人民法院出版社的法律內容資源的支撐。
法信平臺擁有以大規模知識圖譜所儲存的經過權威司法專家整理和積累的司法知識體系,把自然語言處理、意圖分析、實體與關係識別、機器學習等人工智慧技術融合在一起,在傳統法律資料庫關鍵詞查詢、知識檢索和類案維度檢索的方法之外,實現了互動式專業問答等功能,大大提高了中文法律知識服務的水準。
在資料方面,法信平臺擁有國內司法領域最權威、最完備的知識體系和資料資源,包括中國所有的法律法規、典型案例、圖書期刊、法律文書等十二個法律專業資料庫資源。
「在智慧法院平臺中,AI 系統需要做很多文字處理的工作。演算法需要閱讀起訴狀、答辯狀、庭審筆錄、判決文書,」國雙技術長劉激揚介紹道。「在這個過程中我們需要強大的AI 技術,也需要相關領域的專業知識。」
為了讓司法行業的智慧應用平臺能夠真正具備行業智慧,解決司法行業的核心業務問題,國雙建立起了由法官、檢察官、律師等具備多年實務經驗的多元化司法專家團隊,他們與國雙技術人員一道,把業務和技術成功整合到了一起。這些來自法律行業的專家會告訴技術人員:法官在辦案時需要什麼工具、辦案的流程和核心業務痛點是什麼。
據瞭解,在國雙的研發團隊中,來自司法領域的專家已超過 20 位。
覆蓋審判全流程的AI平臺
我們總是期望法官判案時能夠做出公正的決定。雖然司法人員是相當專業的群體,但是每個人的職業生涯都是經驗積累的過程。對於很多人來說,人工智慧可以對他們起到很大幫助。
針對法院場景,國雙提出了輔助法官辦案全流程的「智訟」平臺,整合了來自法信平臺的資料分析能力。在法官接手一個案件後,從立案、開庭、審判、判決文書製作以及審判管理,整個流程每一個關鍵步驟都會獲得 AI 的幫助。這樣一套產品,可以讓大量法官從智慧解決方案中獲益。
「審判流程中文書包括起訴狀、答辯狀、庭審筆錄等電子卷宗,都可以由機器閱讀、分析,」劉激揚介紹到。「在庭審階段,系統可以提示法官:這是一個什麼型別的案子、其中有哪些爭議焦點和司法要素、要判這個案子需要問什麼樣的問題、收集哪些證據和審查項等。我們可以幫助法官在每一個環節做到最好。」
更為重要的是,在審理的最後,AI 可以透過理解所有前置文書、法律法規、類案文書,為法官自動生成一份裁判文書。「這是一個裁判文書的推薦版本,其中當事人資訊、案件事實、爭議焦點、裁判規則、適用法律等內容均由 AI 進行理解並自動抽取和推斷的。法官可以根據AI所建議的內容及自己的專業經驗和實際情況作出最終的判決,形成判決文書,」劉激揚表示。「而且在文書製作完成後,AI 會對案件結果進行偏離度分析,避免出現“同案不同判”的情況。」
從這些層面上來看,人工智慧可以幫助人類更準確、更迅速地判案,做到更加公正。可以減少重複性事務性工作,幫助法官提高工作質效,從而把主要精力用於審理疑難複雜案件之中。
業界認可
國雙參加了最具權威性的司法人工智慧挑戰賽——中國法研杯,並獲得了去年的冠軍。在今年第二屆法研杯比賽中,國雙受邀擔當評委,承辦“要素識別”賽道,並公開了中國最大的人工標註法律資料集。
國雙的 NLP 團隊還把自己的技術探索整理成論文,並被 11 月剛剛結束的自然語言處理頂會 EMNLP 2019 接收(論文:《Charge-BasedPrison Term Prediction with Deep Gating Network》)。在這一研究中,研究人員提出了基於指控的刑期預測工具,並實現了更為準確且具有可解釋性的結果。
進軍更多行業
對於國雙來說,在大資料和人工智慧方面的技術積累,也正在更多垂直行業中發揮作用。
近年來,隨著一系列新技術的出現,讓運用 AI 解決業務問題的門檻在不斷地降低,比如 AutoML 技術可以輔助資料科學家們去選擇模型、調整引數,為求解問題最優解做出最理想的決策支援。同時,在資料建模的時候,視覺化的方式進行AI建模可以使資料科學家以拖拽的方式來構建機器學習模型,全程視覺化的檢視模型執行的效果。另外,各種開源的深度學習框架和工具大大縮短了資料科學建模與在實現中工程化實現的時間和工程難度,這對於技術的大規模應用來說是件好事。
在這種情況之下,技術本身的門檻不再那麼令人望而卻步,身處這個領域的人們也能將更多的精力花在解決行業問題上。
雖然技術門檻在不斷降低,但是如何在不同行業更有效地利用 AI 技術,以更快的速度進軍新的行業,除了需要行業知識外,還需要核心 AI 平臺的支援。
國雙副總裁黃勇堅表示,國雙核心 AI 平臺由「國雙先知」和「國雙知識圖譜平臺」組成。「國雙先知」整合了國雙多年積累的自然語言處理、影像識別、資料探勘、深度學習等人工智慧領域的成熟技術能力,面向各類垂直行業和細分領域的解決方案,提供開箱即用的 AI 研發能力。
透過國雙先知,資料科學家可以輕鬆把業務場景轉化為人工智慧任務,快速接入資料,透過視覺化建模和自動建模等多種方式建立模型,一鍵生成 API ,進行能力輸出和成果交付。
「國雙知識圖譜平臺」是整合知識抽取、知識融合、知識推理、知識檢索、知識推薦、知識增強、機器學習、知識驗證等能力的一站式平臺。透過國雙知識圖譜平臺可以把分散在結構化、非結構化資料中的大量知識,按照專家參與構建的知識體系進行整合及管理,形成平臺化的知識生命週期管理能力,賦能企業內部的知識智慧應用。
與很多 AI 技術公司不同,在國雙所專注的行業中,研發團隊中有很多相應的行業專家:在司法領域有法律專家,在油氣領域有油氣專家。國雙不僅專注底層 AI 平臺的技術研發,還著手探索如何用 AI 解決行業問題,為客戶提供一站式的解決方案,而不僅僅是提供單純的 AI 技術。
國雙認為,AI 技術要真正與行業結合解決行業問題,有兩點很重要:一是要請行業專家提出行業內有價值的痛點,二是需要有堅實的AI技術平臺的技術支撐得以有效和快速的建模和交付。
面臨一個陌生的行業,剛入門的人可能連資料都看不懂,這個時候需要先準確定義「問題」,和這個行業裡的業務專家進行溝通,去理解行業。在最初進入石油領域的時候,行業專家提出要解決的問題,國雙資料科學團隊透過行業專家快速學習油氣領域諸如「孔滲飽」等專業術語、測井曲線資料特徵等油氣專業知識,快速理解業務,再透過國雙先知迅速建模,把演算法以標準 API 的方式提供標準化的工程呼叫服務,在實踐中驗證模型的效果和效能,使問題得以有效的解決。
為了讓計算機像行業專家一樣具備行業智慧,國雙的油氣行業專家整理了油氣知識體系,透過國雙知識圖譜平臺有效從各類結構化和非結構化文件中發現、學習、儲存知識。由於計算機具備了油氣知識,在資料自動建模時,計算機可以提示油氣領域的專用特徵,而不僅僅使用通用的特徵,得到現實中更佳的模型結果。
經過幾年的升級與完善,如今在油氣大資料平臺及解決方案上,國雙已經能夠實現實時資料採集與傳輸、現場實時生產監控、診斷預警分析及生產視覺化、油氣生產最佳化和油氣生產智慧決策支援五大最佳化功能。在構建精準、實時、高效的資料採集與互聯互通體系基礎上,國雙為國內部分油田建立起了面向油氣工業大資料的分析應用環境。
依靠國雙先知和國雙知識圖譜平臺的能力,結合行業專家的業務知識,國雙在數年間取得在司法和油氣業務上的成功。
第一家赴美上市的國內AI 公司
在司法和石油等領域廣泛佈局的國雙,還是首家在納斯達克上市的國內大資料與人工智慧企業。2005 年,國雙在北京成立,其創始人團隊來自清華校園。早在 2016 年 9 月,這家公司就成功在美國上市了。
在深度學習浪潮興起之前,國雙自資料探勘等技術起步,至今已在AI 領域取得了不錯的成績。目前在人工智慧百強企業申請發明數量排名裡,國雙排名前列(截至 2019 年 11 月,發明專利申請數量 2000+),超過了多家著名 AI 企業。
而在行業的覆蓋面上,國雙涉足的領域已經包含數字營銷、工業生產、企業運營管理以及專業服務幾大部分。
國雙的資料科學團隊也已建立接近五年,其成員均來自國內外一流大學,包括資料科學家、機器學習建模專家、計算機視覺專家、自然語言處理專家、語音工程專家等。
「在知識圖譜和自然語言理解的方向上,我們還有很多問題需要解決,」劉激揚說道。「我們希望在知識提取領域裡做更多的研究。未來,我們希望能讓不同領域中模型學習到的知識遷移到其他領域裡。在人工智慧的道路上,我們還有很多挑戰和機遇。」
未來,國雙希望在國雙先知、知識圖譜平臺的基礎上不斷髮展,形成更強的核心競爭力,併為更多行業的數字化和智慧化轉型提供自己的服務。