AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

微胖發表於2019-04-19

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

在查理·芒格口中巨頭唯恐避之不及,但他們很喜歡的法律科技創新領域,又多了一家新的AI公司祕塔科技。上週這家成立僅一年的公司推出了兩款初步成型的法律AI產品。其中,法律翻譯AI(「祕塔 MT」)最讓人意外,在此之前幾乎沒人聽說這類產品。在良好的資料清理、結構化與演算法設計的基礎上,AI有望徹底變革當前法律翻譯市場高收費、低效率的現狀。另一款法律搜尋產品,則完全在意料之中,畢竟,合同文字處理和搜尋工具是目前最為硬核的法律科技創業方向。不過,這款工具的獨特之處不僅在於能夠揣摩使用者搜尋意圖,它還將律師經常用到的資料來源集中在一個平臺上,實現一站式搜尋,提升搜尋效率。然而,任何法律科技創新都不可能一步而就,驚豔業界,而需要生態關注與支援。雖舉步維艱,所幸的是,律師界正逐步形成一個共識:除了體制與管理改革,人機耦合是否成功也將是律所在未來競爭中勝出的關鍵因素。

採訪、撰文 | 微胖

坦白講,4月12日之前,我從來沒聽說過哪家創業公司在做法律翻譯AI,直到那天下午在北京大學法學院模擬法庭觀摩了中國第一場法律翻譯人機對抗賽。

第一輪比賽中,清華大學、人民大學以及對外經貿大學,從八所北京頂尖高校(其他幾所包括北京大學、外交學院、北京外國語大學、中國政法大學以及北京師範大學)隊伍中脫穎而出,獲得組成「人類精英」團隊、迎戰上海祕塔網路科技有限公司(以下簡稱祕塔科技)推出的法律翻譯AI(「祕塔 MT」)的資格。

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家在人機對抗環節中,經過三份合同條款翻譯(中譯英)的較量,「祕塔MT」(輔以一位大學生選手修正機翻結果)最終以88.33 vs 79.22的比分戰勝「人類精英」隊。

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家人機對抗環節的賽題之一

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

你能分辨出哪一個是「祕塔MT」戰隊的翻譯嗎?

距離我不遠處的北京外國語大學法學院國際法教師趙理智在整個賽程中都顯得很興奮。


「沒想到國內的人工智慧技術水平已經到了如此水平,」他說道。比賽結果出來後,他更放言人類「要從狼嘴裡搶肉」了。

據公司CEO閔可銳介紹,「祕塔 MT」訓練用資料包括兩大類,通用領域高質量翻譯資料和法律領域的資料。

不過,和我們的直覺相反,通用資料體量最大,大約千萬級別,而法律特定領域資料僅幾萬、十萬左右。

「90%不是法律領域的資料。」閔可銳告訴我們,「我們在演算法上花了一番功夫,使用了遷移學習,對兩個領域的資料同時加以了利用。」

「其實,純粹使用法律資料,訓練效果並不好,通用領域的高質量翻譯資料同樣不可或缺。」他補充解釋道。
AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

公司CEO 閔可銳

和趙理智不同,我本人並未對這個結果感到特別意外。

AI與律師的較量已經不是第一次了,而且每次都是AI獲勝。比如,京東法律諮詢機器人、阿里的合同審查AI以及以色列創業公司LawGeex的合同審查AI。

既然機器翻譯是成績最為斐然的NLP領域之一,那麼,機器在法律翻譯方面取得的效果,應該會比合同審查、法律諮詢的結果更好。

但問題在於,為什麼之前很多人沒有留意到這塊市場?

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

公司COO 王益為(左)與北大法寶總經理趙曉海(右)

法律翻譯:從90%到10%

傳統行業在享受技術紅利上存在週期。

「拼技術的公司,會首先將先進技術整合到自己產品中。」 閔可銳說,「最新技術通常也首先傾向於規模最大、最容易用得上的領域。」

這也是為什麼網際網路巨頭同時也是最強人工智慧公司的原因。從這個角度來看,傳統法律服務行業並非一眼看上去就能產生變革的領域。

不過,這位深度參與過獵戶星空智慧語音技術研發的前首席科學家對一度白熱化的智慧音響和語音技術市場,有著自己的判斷。在他看來,這類產品在未來可能會收斂到這樣一種狀態:

所有產品會做到70到80分之間。低於這個區間的產品顯然不合格,但要做到超出80分,也會非常困難。

但是,法律翻譯領域不會出現這樣的情況。

祕塔團隊在機器翻譯方面一直有著比較強的技術積累。根據他們對最近兩年翻譯技術的理解,「機器翻譯法律文字的準確性完全可以倒過來」 :

現階段律師需要修改基於谷歌翻譯初稿90%的內容,如果使用AI,初稿可用率可達90%,也就是說,人類律師僅需在這個基礎上修正餘下的那10%。

「做好資料清洗、結構化和演算法,法律翻譯質量會產生巨大飛躍。」 閔可銳說,「不過,做到90%並不容易,谷歌、DeepMind並沒有這方面現成演算法,必須自研。」比如,法律合同中一句話超過四百個字的情況比較常見,這個長度已經超過新聞類口語長度,給演算法設計提出了挑戰。

但這也正是法律領域吸引閔可銳的重要原因,它「是一塊典型的純技術窪地。

一年前,這位前獵豹移動首席科學家離開東家,成立祕塔科技。

技術窪地,僅僅是鎖定市場的一個方面。法律翻譯市場本身也具有高頻、需求量大、高價值的特點。

目前,中國法律翻譯市場主要包括兩大類使用者群:法律翻譯公司和好的律所。

法律翻譯公司一般從事一些格式法律文書的翻譯,比如合同、章程、證明、法規等。

除了服務律所之外,他們也服務很多其他市場主體。比如,商業銀行、投資銀行、VC/PE基金、對衝基金、擔保公司、資產管理公司、房地產公司、以及大型跨國公司的法務和財務部門等。

由於法律文字,特別是合同對翻譯準確性要求非常高,客戶需要支付每千字300到1200元,也是收費最高的一類服務。

「這個市場貌似小是因為非常分散。比如一些法律翻譯公司,一年翻譯一億字的公司就算比較大的,但這樣的公司有很多,比從事涉外事務的律所多多了。」王益為說。

律所,特別是業務比較複雜的優秀律所,是另外一個非常重要的使用者群體。

這些律所業務大多涉及公司法、外商投資、境內企業對外投資、併購、合規、盡職調查、企業上市、智慧財產權等常見的非訴訟法律業務,法律翻譯是工作不可或缺的一部分。

一位資深律師告訴我們,中國「紅圈所」(一個對應英國魔圈所的提法,指中國最頂級的律所,比如金杜、君合、中倫、方達、環球等八家)一到三年的初級律師的很多時間都是在做翻譯。

無論招實習生還是全職,絕大多數頂尖律所筆試的第一題都是翻譯,後面還會有英文撰寫起草合同部分。可以說,法律英語的掌握程度關係著是否能拿到這些律所的offer。

筆者也發現,君合在自己的網站中明確寫道,「已在海內外擁有......一支由220多位合夥人和顧問、510多位受僱律師和法律翻譯組成的逾730人的專業團隊」。

「方達,中倫也有專門的翻譯團隊。」王益為說。創業之前,他已經在紅圈所從事併購、境外上市等業務十多年。

這些律師事務所服務的客戶比較高階(以財富500強為主),這些客戶願意給高質量的法律翻譯服務支付較高的價格,因此,翻譯檔案報價在每小時上千人民幣,法律翻譯也成為許多外資所和大型內資所的分支收入來源之一。這也是為什麼他們一般會設定全職法律翻譯職位。

通常,初級律師會花費50到60個小時(約為一週的時間)來處理一份長度約為70頁的合同。如果使用AI,效率有望提升5到6倍。也就是說,處理70頁合同所需時間,將由50個小時縮減到約20小時(一天的時間)。

一位從事法律翻譯的業內人士告訴我們,由於法律行業的高度專業性以及八股性,一般做了5年的翻譯,基本上可以做到一個合同拿出來,50%以上的內容都是耳熟能詳的。尤其是碰到長期客戶和大型專案,雷同率非常高,這也意味著用機翻提升效率的可能性很高。

更為重要的是,律師的工作性質從勞動密集型升格到更考驗知識技能的檔案修改和起草,同時,初級律師也有更多時間和精力從事更加創造性工作,律所維繫翻譯團隊的運營成本也大大降低。

亞馬遜上海人工智慧研究院院長張崢曾在人機對抗賽現場講話中,將法律領域比喻成一條裂縫。

不同應用場景就像地面上不同的裂縫,人工智慧技術就像水。

「(法律翻譯)這條裂縫,水滲透的速度會特別快,」張崢說。

「會對既有工作模式的顛覆。」閔可銳說,這是一個有付費意願的真正需求。

法律檢索:所見即所需

半年前,筆者曾採訪過LegalZoom聯合創始人Brian Liu ,這位伯克利畢業的法律高材生曾妙喻法學教育:本質上就是告訴你如何在那麼多文字中,準確定位到你需所需的資訊。

閔可銳做了一個簡單分析。

中國法律法規資料體量已達180萬量級,這個數字已經超過人腦可以記憶的數量。這意味著律師提供法律服務的核心服務,很大程度上是資訊搜尋、整理和加工。

實踐中,這些工作通常會被交給初年級律師。「一個低年級律師的30%時間都是在做legal research。」王益為說。

問題在於,這個時間花得值嗎?

假設一位客戶希望瞭解自己公司推行「996」工作制是否觸犯勞動法。

在某法律資料庫搜尋欄中輸入「996」,律師發現,排在列表第一位的是1996年釋出的謀份法律文書。顯然,這僅僅是字串意義上的相似,與滿足律師所需還差很遠。

然後,這位律師會轉戰谷歌,輸入「996」後,這位律師會得到關於「996工作制」的百度百科。


「他會根據這個搜尋結果,找到合適的法律關鍵詞,再回頭進入資料庫查詢。」王益為說。整個過程需要往返於不同資訊源,不僅大費周章,也對關鍵詞的斟酌,提出了很高要求。

祕塔的搜尋引擎,展示了新的可能性。

輸入「996」,系統會自動推出勞動法。系統已經揣測到這位律師可能是想搞清楚某家公司如果實行996,是否存在法律問題,所以推薦了勞動法。

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

再比如,輸入「范冰冰」,系統會將涉及偷稅、漏稅的法律規定置於首位。顯然,系統推測使用者是想了解迫使范冰冰淡出人們視線的「陰陽合同」所涉及的相關法律問題。

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家


這種可以揣摩使用者意圖的檢索,叫做預測性檢索,採用了祕塔自主研發的異構非結構化分析引擎。

祕塔的技術團隊有著比較強的分詞技術,也將語義聯想、實體識別等知識圖譜相關技術應用到了分析引擎中。

除了這些通用領域比較常見的先進技術,王益為還強調了生成式摘要技術和 Learn to rank 技術。

和抽取式摘要技術不同,使用了深度神經網路的生成式摘要技術,更接近人類思維方式:

先理解,在提取概要。系統在理解文字的基礎上(比如只關注知識,對其他內容選擇性忽視),重新生成更有針對性的摘要。

這種基於查詢(Query)的自動文字摘要技術會幫助使用者儘快找到目標內容。

而「我們的 Learn to rank技術可以讓系統自動學習更合理的排序。」王益為說。由於記錄了每次使用的點選情況,學習使用者的習慣,系統會自動提升排序質量。

目前,預測性檢索技術應用到了分析引擎的所有模組中。不過,僅對法律法規、知識經驗模組做了優化。

針對筆者感興趣的類案推送的優化,閔可銳表示,因為「不同資料來源,排名優化細節存在差異,這要留待接下來的工作。」

其實,除了搜尋體驗的與眾不同,律師一眼便會看出這款搜尋產品的另一個不同:

一站式服務,除了諸如法律法規、案例、辦事指南等常規模組,還包括諸如資訊和知識經驗等內容。

根據王益為多年的紅圈所經驗,律所所需資訊源通常有好幾個。

比如,中國法律法規,大多使用的是北大法寶;案例搜尋,會用無訟和裁判文書網;政策規章,會去不同政府網站搜尋。

但是,王益為特別強調了知識經驗對律師行業的重要性。

「律師經常會針對熱門法律問題寫些文章,或者就自己處理某類案件的經驗寫篇文章,這是做市場推廣的一個重要手段。」王益為說,「對於同行來說,也是很寶貴的參考資料,同時也是業務捷徑。」

然而出乎意料的是,儘管有些律師會去知乎等公號搜尋這類同行見解,但也有不少律師甚至連可以搜尋微信公眾號文章都不清楚。

因此,祕塔嘗試將所有這些重要資料來源整合到一起,實現一站式搜尋,提升律師工作效率。

「一個賬號500元包年」

當問及最為關心的產品定價時,王益為給出一串並不令人咂舌的數字:

今年的產品定價是,法律搜尋一個賬號,一年500元;法律翻譯,每千字30塊。

「希望今年可以擴充五萬律師和公司法務的使用者,有了這些對業務要求非常嚴格的使用者背書,我們就能繼續去做更大、更復雜的產品。」

如果祕塔能在小範圍內證明方案的有效,其他律所可能會被迫緊跟趨勢。與此同時,通過產品在實際場景中的應用,反哺得到更多的資料,形成商業閉環,也有助於公司進一步打磨產品,實現技術迭代。

不過就在一週前,一組最新資料透露出過去五年法律創新領域的慘淡:

過去五年中,法律行業至少湧現出159家創新公司(廣義上創新,不止於AI技術創新),其中,28家已經宣告失敗。

AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家

法律大資料公司華宇元典即將推出一份過去五年法律創新行業的報告。相關資料來自這份尚未完全公開的報告。
AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家
來源同上。
AI首次公開擊敗人類法律翻譯,前獵豹首席科學家為何跨界創立法律AI公司?|獨家來源同上。

中國的法律服務市場規模,約為一千億人民幣,並以每年20%的增長。但是,法律科技投入不到其中的1%。相比之下,美國律所對法律科技投入大概在7%左右。

「律所很關心如何將自己做大做強,但他們主要是考慮走精品所還是大所道路、如何規模化或者提升管理效率,很少有律師關注法律科技。」王益為說。

由於目前面向消費者群體的法律諮詢服務的標準化和產品化還比較遙遠,因此,從事法律科技創新的公司大多服務B、G端客戶。這意味著,這個領域短期內不會出現類似消費者應用場景下的那種爆發性增長,這也多少導致資本的興趣索然。

儘管如此,仍有不少業內人士看好這個市場。

2019年 Daily Journal 年會上,查理·芒格談到了這家公司的法律自動化服務業務線:

「我們做的這種軟體生意,IT 巨頭們避之唯恐不及。」

「這個生意就是這樣,根本快不起來,而且還很磨人。我們倒是一直很喜歡這生意,因為能做這個生意的公司必須有錢、有決心、能堅持下去。」

最近,美國創業公司 Pare 聯合創始人 Dave Lu 在《如何讓你的創業專案估值10億美元》一文中,特別提及了法律創新專案的潛力。同時,也一針見血地指出了這個領域的棘手之處:

「與經年累積的商業模式競爭,並非易事。如果你還不是業內人士,則難上加難。」

因此,對於市場新生力量來說,如何將點子化作產品落入目標使用者群,這一點至關重要。

就祕塔團隊來說,一方面,王益為是一位非常資深的法律圈內人。從北大法學院本科畢業後,他繼續在倫敦大學與哥倫比亞大學深造,獲得碩士學位後進入紅圈所。

正如 Dave Lu 在文章中建議的,「積極尋求擁有廣泛資源及良好信用的業內專家合作,比較容易獲得行業信任,贏得關鍵使用者。」

另一方面,閔可銳認為,圈內人的口碑相傳也是一個很重要的銷售渠道。

「法律群體對新的知識和產品會比較有好奇心,也有比較好的消費能力,這是有利的地方。而且,律師之間的資訊互通做的比較好,有利於形成口碑相傳。」他說。前提就是,對自己技術和產品的自信。

法律創新至今舉步維艱,甚至有人說2019年會是未來五年最好的一年。所幸的是,就筆者獲取到的資訊來看,經過這幾年的市場教育,至少那些優秀的律師和律所正逐漸趨於一個共識:

除了規模化與管理效率提升,人機耦合是否成功也將是未來競爭中勝出的關鍵因素。至於中國市場,查理·芒格說了這樣一句話,「中國的水可以。有些聰明人已經蹚進去了。時候到了,更多人會進場。」

這也是今年他在Daily Journal 上發言中,在法律業界流傳最廣的一句。

相關文章