一家法律智慧公司的CTO是怎樣煉成的?

特邀精選發表於2018-11-12

在法律——這樣一個跟影像識別領域相比並無有形實體、充滿人類擬製概念;跟圍棋領域相比規則複雜而混沌的領域中,實現法律智慧的技術路徑是什麼?

2003年,剛剛踏入法律領域進行技術研發工作的李東海就思考過這個問題。彼時的他雖然接觸法律行業不久,卻敏感地察覺到這個包羅人類萬千情態領域的特殊性。

拿“自首”這件事舉例,現實生活中普通人會說的“闖禍後主動打電話報警”這類生活事實對應的是“自首”的法律概念,而這兩個字又需要被置於整個刑法體系下,跟法條、案例等等千絲萬縷地關聯在一起以後,才會被神奇地賦予了意義,並能與複雜多變的生活事實相對應。當時的李東海就意識到,這些無實體的、複雜的法律概念不能預置到機器中,那麼是否能通過知識圖譜的方式讓機器瞭解、推理和識別?

一晃十五年,曾經的“腦洞”逐漸成為現實。

2018年8月17日,全國知識圖譜與語義計算大會在天津召開。論壇發言環節,不惑之年的李東海站在臺上簡明扼要地向與會者介紹法律知識圖譜——法律知識圖譜是垂直領域的知識圖譜,是眾多法律要素組成的知識庫,是機器進行法律知識推理的基礎。

一家法律智慧公司的CTO是怎樣煉成的?法律知識圖譜邏輯圖 

全國知識圖譜與語義計算大會是技術界的盛會,全國知識表示、自然語言理解機器學習資料庫、圖計算等相關領域的重要學者和研究人員濟濟一堂,共同探討大資料環境下語言理解、知識獲取與智慧服務的關鍵技術和應用。李東海本人也是中國中文資訊學會語言與知識計算專委會委員之一。

將晦澀的技術概念高度凝練之後舉重若輕地表達,這種化繁為簡的演繹背後是李東海十五年如一日付出的厚積薄發。

在元典,擁有十餘年審判經驗的前法官笑稱李東海“在技術領域中最懂法律”,他能流暢地與法律人就法律問題進行探討,甚至在交流中指出資深法官都會疏忽的細節;而在與技術人員溝通法律人想實現的功能和技術實現方案時,李東海又是最值得信賴的“翻譯”和架構師。


一家法律智慧公司的CTO是怎樣煉成的?李東海,中國中文資訊學會語言與知識計算專委會委員,2018年度新銳領軍程式設計師,清華大學創新領軍工程在讀博士,北京華宇元典資訊服務有限公司副總經理,技術總監,多項法律技術領域相關專利的發明人。
結緣

知識圖譜是個很熱的概念,這次會議不僅有阿里、騰訊、百度這樣的大企業參加,很多技術界的nlp大牛也出席了會議,探索知識圖譜自然語言處理方面的一些應用。現階段,自然語言處理已經達到了繁榮前期,但業界認為,語音識別這樣通用領域自然語言方面的應用,已經快達到了目前技術限制下的極限,而針對專業領域的自然語言處理應用方興未艾。”

“這次大會大概有幾十個演講,在專業領域知識圖譜的應用,金融佔大部分,醫療佔小部分,與司法相關的卻只有一兩個,但都做得比較淺,還在做當事人屬性提取、事實拆分這類較為基礎的部分,這些我們早已經有了成熟的技術,儘管不是通過知識圖譜的方式實現。”

跟李東海交談幾句,就能感受到技術人員特有的謙遜平和,但談起這個領域的話題,他又有一種顯見的自信。這種自信來源於已有十餘年大資料挖掘、自然語言處理相關技術研發工作經驗的他,幾乎每一項研發工作都與司法這個熟悉的領域相伴。

2003年,碩士畢業的李東海加入華宇集團,一干就是15年。當時的華宇集團還叫做“紫光華宇”,剛剛成立2年,所有員工加起來不到80人。

李東海至今仍清楚地記得,2003年,正是網際網路最火熱的時候。QQ、多媒體傳輸,這些應用與場景都是當時技術的難點與熱點。順應時代的熱潮,李東海此前的技術研發經歷也幾乎都與網路傳輸有關。

傳輸交換管理平臺,是李東海加入華宇後第一款比較成功的產品,這款產品在之後幾年給華宇集團帶來了可觀的收益。

“進入華宇後,我就開始從事網路相關的技術研發工作。我認為華宇集團為法律人創造的最大價值就是在最初期把法院之間的資料連通,當時互聯互通是法檢領域最大的剛需。法院審理是有層級關係的,但資料卻是不通的,而當時在做的資料傳輸交換系統,就能夠解決四級法院間資料孤島的問題,這是打破資料孤島的一個小嚐試。就像網際網路,也是將一個個孤立的區域網串聯在一起,讓資訊在更大範圍內流通起來,才能發揮出更大的作用。”

技術人員留給外界的印象經常是沉默寡言不擅言辭,跟李東海接觸起來,起初你也會覺得他是個典型技術人,但聊起深耕多年的領域,他又會侃侃而談,時不時露出開朗的笑容,讓人感到面前這名技術人的思維就像一尾游魚,自由地穿梭在這片亟待深入探索的海洋中,平和、質樸又簡潔的言辭總能擊中問題要害。

聽李東海的描述,你會發現他對於能夠實現突破資料壁壘,讓資料自由流通的產品給予很高評價。然而,他心中卻也一直存有讓機器逐漸習得法律認知能力的夢想。在AI的概念還未火熱起來的時候,李東海就已經與自然語言處理技術結下了不解之緣。

李東海本科的畢業設計,是在清華大學計算機系智慧技術與系統國家重點實驗室完成的。當時的他就親身參與到自然語言處理中的詞性自動標註工作中,儘管這在當時非常冷門,他卻從中看到了未來的潛在可能,草蛇灰線,在心中默默為從事法律人工智慧埋下了伏筆。

試水

2009年,華宇集團內部進行調整,從整個集團中挑選7位技術研發骨幹,組成集團內部的技術研究院。李東海第二個印象深刻的專案——法院文書智慧校對系統,就是在研究院成立後完成的。

“做文書校對,其實是源於老大(現華宇軟體董事長邵學)的一個想法。”提起文書校對,李東海仍然清楚記得當時的每一個細節。“研究院剛成立時,我們問老大有什麼好想法,老大說他覺得可以從幫助法官校驗文書著手。法官撰寫裁判文書時,由於疏忽造成的文書錯誤經常會受人詬病,如果我們能用技術手段幫助法官做文書校對,將會節省很大一部分人力,這是我們研發這款產品的初衷。”

他敏銳地察覺到,文書智慧校對,是試水法律人工智慧的大好機會,然而他又總感純粹的機器學習方案彷彿欠了火候。李東海帶領團隊嘗試通過機器學習實現原本設計的功能。然而,僅僅是為了收集一部分最簡單的標籤資料,就耗費了幾十個人很多天的功夫去標註,投入實在太大。為此,李東海特意回到清華,請教當時電腦科學與技術系的系主任孫茂松教授,到底應該如何將人腦裡的知識固化落地。

“孫老師只問了我一句話,你們有沒有已經標註好的資料?如果沒有這些資料,不用想機器學習人工智慧這些東西,離你們還太遠。先弄到資料才是最重要的,把以往的歷史資料加工成可能被機器學習的語料,才能把人腦裡的知識規則化,批量的讓機器實現。”

回憶起當時的困境,李東海的神情中不無遺憾。儘管因為種種限制,他沒有實現以機器學習這種更有長遠發展的技術方法進行產品研發的夢想,但長年的堅持,卻讓他迎來了這個機會。

2016年,華宇集團籌備成立一個新的子公司——華宇元典,專注於法律人工智慧領域的研究,為法律人打造智慧輔助產品。董事長邵學在華宇內部的通訊工具cocall上給李東海發了一條資訊,問他願不願意加入即將成立的子公司。李東海幾乎不假思索地答應了這個邀請,這其中簡短的交流全程都在cocall上完成。

談起加入元典這段頗有些傳奇的過程,李東海笑得十分開心。

“當時沒有想那麼多,但很快就決定加入元典。雖然曾經跟劭坤、琳娜(目前擔任元典CEO與COO)見過面,有過簡短的交流,但也並不知道會有元典這樣一個公司誕生。我其實是興奮的,想到我能夠更專注地做我想做的事,與曾是法官、檢察官的法律人在同一家公司工作,和這麼多優秀的人一起做我想做的事,我真的很開心。”

加入元典後,更專注於法律人工智慧領域研究的李東海實現了多年來的夙願。他在法律領域進行技術研發的紮實經驗和對於法律智慧發展持續多年的思考讓他能夠快速融入如今的行業。來自法院、檢察院、律所等等具有豐富實務經驗的法律人和來自頂尖法學院校的優秀法學生,也為機器學習帶來了大量可用的標籤資料,使得法律知識圖譜的構建成為可能,他終於走上了最開始想走的,那條更為長遠的路。

在眾多法律人與技術人的共同努力下,元典睿核誕生了。

踐行


元典睿核,是以法律知識圖譜為核心,通過自然語言處理機器學習,提供法律認知能力和多種知識服務的法律人工智慧平臺。它是元典新人瞭解元典產品的第一課,睿核為各上層應用提供靈活的支撐服務,進而為使用者提供法律知識智慧輔助。

李東海坦言,睿核是他所做過的產品中開發難度最大的,但是價值同樣也是最大的,它承載了所有的知識體系和資料。眾多具有實務經驗的法律人組成團隊,從文字里挖掘更深層次的含義,將他們的知識與經驗通過對法律文書的標記固化到系統中。

“我們技術團隊和法律研究團隊的所有工作都是為了睿核賦能,睿核就像培養大樹的肥沃土壤,只有土壤更加肥沃,才能讓這棵大樹結出更多更甜的果子。”

一家法律智慧公司的CTO是怎樣煉成的?元典產品組合圖

李東海形象地打了個比方,言語間不難看出他對這款產品的看重和所傾注的心血。然而,讓人感到好奇的是,作為一家科技公司的CTO,他又是如何在繁忙的管理工作中抽出時間和精力投入技術研發領域的呢?

談起這個問題,李東海笑了起來。李東海說,他每天最多的工作就是不停和人開會,跟不同的人交流。原來他可以專注地把所有精力投入到一個專案中,但現在他要做的卻是把他的技術能力傾注在不同的專案組,讓每個專案組發揮出更多的價值。李東海現在的角色更像是一個專屬於技術人的智庫,將源源不斷的經驗與知識向不同的分支供給。

在承擔著管理職責的同時,還肩負著技術研發的重任,在常人看來或許是件壓力很大的事,但李東海不一樣。

“儘管很累,但我從不覺得壓力大。事情不會因為壓力大而自己解決,還不如集中一段時間想辦法去解決問題,比天天為這件事焦慮好得多,所以工作這麼多年,我還從未體會過失眠的滋味。”李東海說得輕鬆,但背後承受的壓力仍然可想而知。

在李東海多年的研發工作中,重要的產品還有很多,但他說起以往的產品研發經歷,往往是一筆帶過,並不講述當時研發的困境,也不過分誇讚產品的成功,這些為集團帶來巨大收益的產品,在他口中卻顯得普通非常。這也讓我感到好奇,這些年來,李東海感到最滿足的時刻是什麼呢?

談起這個問題,李東海罕見地陷入了沉默。思考良久,他才作出了回答。

“工作這麼多年,我從未感覺到滿足,或是有特別值得驕傲的時刻。我覺得每一個目標,每一項成果都是計劃中應該達到的水平,從未發生意料之外的驚喜。”

李東海回答得平淡,但卻著實出人意料,也許正是這種不知足引導著技術人不知疲倦的探索。10月,李東海獲評第二屆全球程式設計師節頒出的“2018年度新銳領軍程式設計師”稱號,在這樣的榮譽之外,他更習慣的身份可能是另一個:清華大學創新領軍工程博士專案的首批博士生。在繁忙的研發和管理之外,李東海仍然時常出現在清華校園裡,追求技術帶來的“新的驚喜”。

這種不畏前路、不知滿足的學習精神,正如他多年前剛剛參與法律產品開發時的韌勁,不懂法律,就想方設法找資料看書學習;不理解裁判文書,就熬夜看完幾百份裁判文書。

談起自己讀博想要達到的目標,李東海說:“如今的學術界和產業界隔著巨大的鴻溝,我想重新進入學術界,瞭解現在的技術水平到底發展到什麼階段。學術界研究的是各種演算法、各種模型能夠在理想資料環境下達到的最佳效果,而理想資料環境在實際場景應用中很難具備,產業界則對應用場景更加理解,想辦法去找到或者建立一個合適的技術落地環境,是我去讀博的一個目的。

的確,法律人工智慧行業也需要將學術界與產業界的成果更好地結合,才能取得更加長足的發展。它還處於黎明階段,要等待技術的重大突破,找到將法律知識與現在已有的自然語言處理技術更好的進行銜接的方法,也就是將知識向量化。目前自然語言處理技術已經比較好的解決了文字的向量化,但應該如何將法律知識向量化,並將其應用到文字分析中,只有解決這個問題,行業才能取得真正突破。

是否有一天,能讓機器讀懂案件材料,以法律人的邏輯進行分析,最後將案件事實和參考依據清楚地向人類進行展示,由人類進行最後的衡量判斷?

“儘管達到這樣的技術水平還有很長的距離,但路總要一步步走。元典目前以法律人去理解法律深層的邏輯,並採用專家知識工程的方式讓機器可以大規模處理資料,再以機器學習的方式進行學習補充擴充套件,生成適應性更強的模型,最終以法律知識圖譜的形式固化下來。這是一條在沒有大規模現成可用標籤資料供機器完全自主學習的情況下,我們目前探索出的最有可行性的路徑。

“法律人工智慧的未來會怎樣,我們誰都無法預料,但我們最應該做的,就是懷抱一顆求知之心,為即將到來的明天做準備。做個純粹的技術人,挺好。”

相關文章