AlphaGo 的成功離不開幾個先決條件:標註零成本、存在一個上帝視角告訴機器明確的輸贏結果、完全資訊下的博弈等,所有這些條件在法律(乃至絕大多數垂直領域)均不存在,其中,沒有大規模現成可用的標籤資料是法律 AI 領域的最大現實。玩家們不僅需要選擇正確的機器學習演算法、積極融入先進的深度學習模型,還要把法律知識圖譜放進系統中,針對性地準確處理特定問題。所有這些都大大加大了法律 AI 的落地難度,也暗示了智慧背後大量的人力工程。然而,很大程度上影響使用者體驗的並非定罪量刑預測、類案推送這類高精尖應用,而是諸如資料互通、卷宗電子化等基礎設施。儘管難題不少,但我們也要看到各種炒作和極端言論正逐漸讓位於務實討論,學界認為未來十年會是 NLP 的黃金十年,也描畫了一副更加智慧的法律 AI 圖景。我們仍然值得對這個領域抱以樂觀。
當 20 歲的溫州樂清女孩趙培辰坐上鍾元的滴滴順風車後,就再也沒有回來。距離最後一條求救微信十多個小時後,鍾元被警方逮捕,殘酷真相也隨之揭開:
接到趙培辰後,鍾元選擇了一條極為生僻的路線,行至無人處後將其手腳捆綁起來,膠布封嘴,索要錢財。
9000 多元到手後,鍾元再次將車開到訊號不好的偏僻處,強姦了趙培辰,並用匕首刺其頸部,致其死亡。隨後拋屍,離開。
這就是震驚國人的「滴滴順風車司機殺人案」。
兩個應用場景:經典、前衛
目前,案件正在審理中。筆者嘗試粗顆粒地描述一下法官「加工」案件的過程:
在犯罪構成要件的指引下,拆分案件事實,將不同事實部分「封裝」到相應構成要素中。
比如,捆綁、用膠布封嘴的行為,是否構成「當場使用暴力」(搶劫的行為要素之一)?用匕首刺其頸部,致受害人死亡,是否屬於非法剝奪他人生命(殺人)?
構成要件「封裝」完畢後,法官還要考慮其他要素,比如,犯罪特殊形態(是否存在中止?)和罪數(數罪併罰?),等等。
最後,根據所涉條文(比如《中華人民共和國刑法》第二十四條、第二百六十三條、第二百三十二條等)完成定罪與量刑。
不過,這僅僅完成了一半的工作。
裁判不是追求獨創性的文學創作,恰恰相反,法官需要將個案嵌入類案體系,力求同案同判。
和主要服務 B、C 端的美國法律科技市場不同,當前中國法律智慧市場中,面向 G、B 端的法律智慧公司佔到近 50%,無論上述哪一個工作環節——定罪量刑預測還是類案分析,都是這些公司力圖覆蓋的經典場景。
忒修斯之船:從屬性相似到要素相似
1 世紀時的希臘作家普魯塔克提出了這個問題:如果忒修斯的船上的木頭被逐漸替換,直到所有的木頭都不是原來的木頭,那這艘船還是原來的那艘船嗎?這類問題現在被稱作「忒修斯之船」。
挪移到法律領域,這就是一個如何識別類案的問題:
一個案件就像船一樣,由許許多多木板或因素組成,有時替換掉一個因素就可能對裁判造成實質性影響。什麼樣的情況才屬於類案?
美國匹茲堡大學法與智慧系統教授 Kevin D. Ashley 很早就想到了辦法: 尋找重疊的要素。重疊的要素越多,系統推薦的類案就越合適。他甚至設計了一款類案推薦系統。
不過,三十多年後,這枚思想火花才開始在大洋彼岸的法律智慧系統中落地。
直到十多年前,我們的機器解決手段仍然非常粗放。「當時就是尋找案件屬性相似。」華宇元典 CTO 李東海說,當時他還是華宇集團的技術研發骨幹。「比如,案由、法院層級、當事人屬性意義上的相似。」
法院層級、當事人屬性這類資訊,確實有用。比如鍾元的代理律師可能想要了解溫州中院(審理案件的法院)有關犯罪中止的以往案例。然而,這些資訊與案件是否類似,是兩個完全不同的問題。
至於「案由相似」,這個標準太粗放以至於把球又踢回給了法官:
鍾元殺人,與孕婦產後殺嬰、兒子為避免母親受辱而憤然殺人、誤將白糖當砒霜殺人、小學生殺母等案件,雖同屬故意殺人案由,但這些案件要點各有側重,不加選擇地推給法官,只會讓他們抓狂。
雖然當時會定期公佈指導案例,但其約束效果也極為有限。
基於文字相似的類案推送,是 2010 年以後的事情。
華宇、國雙等公司陸續用 NLP 計算文字相似,特別是詞嵌入(word embeddings),可以幫助系統輕易找出與目標詞語最相似的詞語。
目前法律 AI 市場中的文字相似技術,主要是語詞級別:採用詞作為特徵項,特徵詞作為文件中間的表示形式,實現文件與文件、文件與使用者目標之間的相似度計算。
只有華宇元典等少數幾家公司能做句子級別的相似,實現短文字的搜尋(比如,「在公共場合起鬨鬧事」、「無故追砍路人」),篇章級別的相似也在探索中。
但是,技術人員眼中的文字相似與法官眼裡的類案,仍然存在很大差距。
「我們很難說服法官這就是類案,因為這不是他們的實際交流方式。」李東海說。
比如,討論鍾元所犯下的罪行和之前的「空姐被殺案」是否類似時,法官不會討論文字有多相似,而是類比法律要點,比如行為手段、結果等,就像本文前半部分描述的那樣。
另一個經常被拿出來討論的例子是「自首」。
「到公安機關自動投案」、「被追打著躲進公安局」、「在家屬陪同去派出所的路上被公安機關抓獲」,意思一樣,都在講自首,雖然可以通過標註一些訓練資料,訓練語義層面的分類器加以處理,但是,法官通常希望輸入「自首」後,直接檢索到包含諸如「投案,並如實供述犯罪事實」這樣事實的案例,在華宇元典看來,這種認知需求沒辦法僅憑文字相似加以實現。
2013 年,有了資料、技術的支援和國家政策層面接納,華宇元典、國雙等公司在文字相似、屬性相似之外,推出了要素相似的檢索模式。
所謂法律要素,就是影響法官裁判的最小顆粒度法律事實(要素)。
比如,交通肇事罪涉及的法律要素包括法定死亡人數,重傷人數、被害過錯、涉案損失、醉駕、毒駕、無證、無號牌、報廢、超載、與準駕車型不符,逃逸,自首,累犯,等等。
兩個交通肇事罪案件,案由相同,但只有相同要素越多,才越類似。
不過,黃琳娜補充道,雖然前兩種技術各自存在不足,但「仍然具有產品價值和意義,」最終仍然需要三者合力,實現檢索目標。
NLP 與知識圖譜:兩種技術的深與廣
實現要素相似搜尋,就要構建知識圖譜。
你可以認為知識圖譜是一個知識庫,這也是為什麼它可以用來回答一些搜尋相關問題的原因。就筆者接觸過的兩三家法律科技公司來看,大家的法律知識圖譜構思比較相似:
以刑事案件為例,包括犯罪構成要件、量刑情節、法律規範、刑事政策等方面,在犯罪四要件的邏輯指導下,形成圖譜基本架構,至於「細枝末節」,則從裁判文書、法律、司法解釋中提取要素予以充實。
以元典智庫為例。
如果一位法官正在承辦關於自首的刑事案件,查詢類案時,可以先輸入「自首」。由於已經建構了相關刑事領域的知識圖譜,這四個字在系統眼裡不再是一個字串,而是一個實體,系統會提示法官根據法律要素來搜尋:
選擇一般自首,系統就會推送要素相似的案例,甚至包括不帶自首二字卻是在討論自首的類案:
但是,法律知識圖譜的功能遠並不止於此。這要從另一個經典應用場景:罪名和量刑預測說起。
近些年,輸入一個案件事實描述,預測法條、罪名和刑期的這種有監督學習(屬於文字分類任務),越來越受到關注,這也是前不久結束的首屆中國「法研杯」的競賽專案。
從獲獎情況來看,三甲團隊取得的一些成果基本上都建立在深度學習模型上,「已經屬於比較成熟的應用,」李東海告訴我們。
比如,「罪名預測任務上,我們疊加了多個模型,比如雙向 LSTM,將各種模型串接並聯,整體性地進行預測。」李東海說。
另外兩支獲獎團隊——國雙和達觀也嘗試了深度學習模型。國雙嘗試了 RamNet,達觀資料也積極推薦 FastText,TextCNN,HAN 等當紅模型。
雖然罪名預測與相關法條推薦的準確率可達 90% 左右,但是,這些先進的文字分類模型需要十萬乃至百萬級以上的資料,一旦遇到小樣本罪名、稀有罪名,深度學習的方案就會捉襟見肘。
比如,長尾罪名以及重要的量刑情節(「入室」盜竊的「入室」)的樣本很難達到訓練要求,這個時候「華宇元典會借用知識圖譜中的法律法規、司法解釋中相關罪名和要素的定義規則,實現罪名預測,這樣可以大幅度提升小樣本罪名的預測準確性。」李東海說。
另外,無論是針對混淆罪名的預測,還是就某些法律要素進行更加深入細緻的分析,NLP 的效果也是不夠的。
學過法律的人都知道,尋釁滋事罪和故意傷害罪容易混淆。從文字上看會有很多一致,但蘊含的法律知識不同。「通過知識圖譜中的法律要素來做區分,效果會比較好。」李東海說。
不過,「做量刑預測,必須用到知識圖譜。」李東海說。
量刑需要有一個推論過程,知識圖譜可以將一段文字對映到法律要素(比如重傷人數、手段等),再根據要素預測量刑,相當於做了一番解釋。但是,深度學習是一個黑盒,法官很難接受。
事實上,這三支隊伍都有構建自己的法律知識圖譜,華宇元典在法律知識圖譜領域起步較早,已取得法律知識圖譜的相關專利。
元典智庫對法律主體的分析,示例中的陳有為法官是這次「滴滴順風車殺人案」的承辦法官,也是溫州中院常務副院長。這樣的分析也是國外法律 AI 公司非常青睞的應用場景。
目前,擁有法律知識圖譜的公司除了上述三家,還有明略、法狗狗、擎盾、律品等。當然,根據公司業務和體量不同,知識圖譜的具體設計,覆蓋廣度和挖掘深度也不同。
由於知識圖譜需要根據一個個具體案由分別搭建,目前僅刑事罪名就有 469 個,民事更多,因此,沒有一家公司能夠搭建出覆蓋所有案由的知識圖譜。
元典是做法是從一個常見案由開始,形成一款產品之後,根據使用者針對知識掛接、推理提出的反饋,不斷補充、修正和迭代,小步快跑。
目前,元典睿核支援的刑事罪名案件覆蓋量佔法院相應收案數量的 90%,民事罪名案件的覆蓋比例為 60%,行政案件支援提取多類案由。
「從支援法官主要的業務場景來說,並不需要面面俱到,我們希望先完成常見案件的支援,滿足當下的需求。」黃琳娜說。
因此,公司接下來仍舊會以廣度為先,覆蓋更多的案由,更多的資料種類和產品。至於深度方面,比如針對某個要素要更為深入的分析,需要和特定的產品和應用掛鉤,李東海說,比如侵權責任糾紛、網路商標、道路交通事故。
知識圖譜雖然是一大步,但距離真正複雜的邏輯還有很大的距離。
有學者直指這些系統唯一的意義在於「事後控制」。比如,法官可以知道全國同類案件中,他的這種判決包括量刑的偏離程度如何。
在李東海看來,學術型需求經常關注的是資料稀少的個案,而且關注的要點可能就是某一個。「這類推薦需求,沒辦法通過一款搜尋產品來滿足,還需要結合搜尋、深度挖掘等技術予以定製化地解決。」
不過業內也承認,類案推薦屬於這個領域的終極問題。如果這個問題解決了,其他問題,比如定罪量刑的預測等,都會得到很好的解決。「這是一個需要不斷去靠近的終極目標。」黃琳娜說。
和 BAT 比起來,目前垂直領域的知識圖譜構建還處在非常初級階段,法律知識圖譜也剛起步。
雖然在有些知識圖譜公司負責人看來,當前對知識圖譜的剛需僅存在國家安全、金融安全等少數領域,但是,知識圖譜在司法智慧應用方面仍然被業內看好。
AI 可能首先成為專家,再成為一個孩子,冪律智慧 CEO 塗存超曾在一篇文章中寫道。
No free lunch:被忽略的討論前提
現在,人們有關法律人工智慧的對話已經從危言聳聽的機器人律師、法官,逐漸轉向如何在日常流程中利用好新的技術。
過去幾年中,那些炮製各種極端言論的人都忽略了一個基本事實:
AlphaGo 的成功極為特殊:標註零成本、存在一個上帝視角告訴機器明確的輸贏結果、完全資訊下的博弈......
所有這些先決條件,在現實生活中都不存在。
先從不完全資訊下的博弈說起。
越封閉的應用場景,機器越容易取得成功。所謂封閉,是指一個有限的知識子集足以支撐應用需求。
AlphaGo 的成功很大程度上得益於圍棋遊戲規則有限,遊戲過程也不會用到下棋規則之外的知識。
這與最近又要開打的《星際爭霸》不同,後者是一個不完全資訊下的環境,更加貼近真實,一旦取得部分突破和進展,對商業和社會發展都會帶來極大影響,比如刑偵和審判活動。
公安人員在破案過程中會用到大量常識,嫌疑人往往是基於證據根據常識進行推理而鎖定的,讓機器代替刑偵人員破案仍十分困難。
至於審判活動,從實證(法律現實主義)角度來看,則更為開放。美國著名法官、學者理查德·波斯納曾在《法官如何思考》一書中,詳細分析了諸多影響和塑造法官前見和判決的因素。
去年發表在《多倫多大學法學雜誌》上的一篇名為《預測、說服以及行為主義的法理學(Prediction, Persuasion, and the Jurisprudence of Behaviorism)》研究曾警告,自然語言處理所預測的司法裁決實際上忽略了有價值的資訊,這種預測呈現的統計學上的相關性並未考慮相關素材具備的豐厚歷史意義。
比如,很多應該被歸為侵犯人權類的案件因此被演算法忽視了(如關鍵詞「兒子」被演算法關聯到「家庭成員」項下而非「重男輕女」)。
裁判文書只是記錄案件處理過程和結果的官方文字,不等於案件本身,很多案外因素不可能原原本本地體現在判決書中。
不少人因此主張,法律人工智慧應更多用於諸如合同的審查、起草等非訴業務,較少用於預測裁判等訴訟事務。即使涉及審判,也要從常見多發、但案件簡單明確的案由著手。
這也是為什麼大多數法律科技公司主動選擇諸如勞動爭議、借貸糾紛、婚姻繼承、交通肇事、盜竊搶劫等領域的原因。
除此之外,資料的規模、多樣性以及標註成本等,都不同程度制約著法律 AI 的落地效果。
比如,現在的機器學習技術對強監督資訊,高度依賴。當前在商業領域的機器學習應用,包括語音識別、影像識別、句法分析、機器翻譯等,絕大部分都採用的是有監督學習。
為了得到正確的輸出,往往需要人工來標註。
法律領域面臨的最大現實,就是「沒有大規模現成可用標籤資料」。這不僅是華宇元典的認知,也是行業共識。法意科技常務副總經理陳浩也曾表示,這個領域最大問題之一就是連公開的標註資料集都沒有。
而且,由於法律資料絕大多數屬於非結構化資料,這不僅意味著更高的標註人力成本,也對構建高質量的知識圖譜提出了更大的挑戰。
有些人甚至認為,法律資料結構化是目前面臨的首要問題。
另外,諸如長尾案件這類低資源資料,不僅對定罪量刑提出了挑戰,也給知識圖譜的建設帶來困難。
目前,華宇元典主要從兩個方面入手緩解這些壓力。
一方面,利用資深法律人的豐富經驗,也會通過華宇的全國渠道跟客戶談合作,開展聯合研發,定向積累資料;
另一方面,由於案由之間也不是完全割裂開,比如都屬於侵權這個大類,因此,可以從其他資料案由中學習一些共性部分,遷移給長尾案件,然後針對一些重點進行學習。
不過,在遷移學習等技術沒有成熟的今天,通過對現有資料進行標註效果仍然要好於調整演算法。
達特茅斯之夏
採訪華宇元典時,我們所在的會議室名字叫「達特茅斯之夏」。從那個夏天到 AlphaGo 驚豔世人,已然過去一個甲子。
然而,當我們孜孜不倦討論著高精尖的智慧應用時,很多人未曾料到制約司法人員使用者體驗的不是類案推送、量刑建議這樣的尖端應用,而是電子卷宗識別、資料互通互聯、規範性檔案及時公開等非常基礎性的問題。
黃琳娜講了一個真實案例。
公司曾經承接了某法院勞動爭議智慧輔助系統的專案,該系統可以識別勞動爭議起訴狀要素,併為簡單案件生成庭審筆錄,以及裁判文書初稿。
出乎意料的是,「我們遇到的最大阻礙不是技術,而是這個法院沒有起訴書的電子版,」黃琳娜說。
由於目前最好的 OCR 也無法確保百分百的識別率,如果選擇 OCR 實現文書電子版化,那就意味著法官、書記員還必須校對 OCR 後的結果,這等於增加了法官的工作量。
而且,無論是當事人還是司法人員,觀念上還是不太信任電子版本,儘管當前技術可以保證電子版本不被篡改。在元典看來,比較理想的做法是,當事人直接提交電子版起訴材料,並提交紙質版入卷歸檔。
法院智慧產品認知能力釋放的前提,需要建立在卷宗資料化的基礎上,像這樣例子還有很多。
「我們的日常工作並非都是在攻克先進技術,有相當一部分是努力推動各種為釋放認知能力所不可或缺的基建工作。」黃琳娜說。
資料互通,是元典經常提及的另一個基建問題,也是自華宇以來,一直在做的事情。
資料不是因為大而產生價值,而是因為線上上而產生了價值,因為資料從此可以在更大範圍流動它產生的價值,這是真正的資料帶來的巨大變化。
雖然中國基層直至最高法院內部資料是聯通的,在像美國這樣的司法制度下幾乎不可能實現,但是,如何與外界的律師、當事人的資料資源打通,仍然是個問題。
這裡不僅有制度上問題,也需要技術方面的支撐。比如,如何自動鑑別一些機密或不宜公開資訊(比如身份證)並將之模糊掉。
未來十年,是 NLP 的黃金十年。
微軟亞洲研究院的科學家們在一篇文章中寫道,其中,法律、金融等領域對 NLP 的需求會大幅度上升,對 NLP 質量也提出更高要求。十年之後,隨著 NLP 進步,「機器人會幫助律師找出判據,挖掘相似案例,尋找合同疏漏,撰寫法律報告。」
即便將目光收回到現在,剛剛走過的 2018 年,大多數精彩也來自 NLP。
比如,作為里程碑的 BERT 節省了從頭開始訓練語言處理模型所需的時間、精力、知識和資源。
法律行業也深受其益。
「在釋出的當天,就拿到資料做了嘗試,看了結果,BERT 更適合做預訓練這一塊。」李東海說。
推出法律智慧問答機器人「法小飛」的科大訊飛和國雙在積極嘗試後均表示,相較於過去採用的模型,該模型大大提升了預測結果的精準性。
前文談到的低資源資料、模型的可解釋性、解釋(explanation)等問題也得到了廣泛討論和關注。
在產業領域,關於 AI 的炒作也開始降溫。
「我們目前仍處於人工智慧在法律領域進行狹窄應用的階段,」ROSS CEO Andrew Arruda 在接受外媒採訪時曾說道,
「(處在狹窄應用)這個週期可能會持續 12 個月左右,從那時起,我們將進入採用週期的下一個階段。在那一點上,我們將開始看到整個行業的法律實踐會如何演變。」
在《人類簡史》中,作者赫拉利給足了法律 C 位的戲份:
人類和黑猩猩之間真正不同的地方正在於虛構故事,它們使得大規模協作成為可能,人類也因此踏上文化演進的快車道,將那些還堵在生物演進道路上的同伴,遠遠甩在了後面。
法律,正是這些虛構故事中極其重要的一個,法律人就是現代社會法力強大的巫師。
如果這個虛擬故事講不下去了,即使語音識別技術做到 100% 的精準,又有什麼意義?
要樂觀。