在產品正式推出前,機器之心找到了達觀資料的創始人和 CEO 陳運文,他向我們介紹了達觀資料新版文件審閱系統背後的技術,同時也對自然語言處理(NLP)和人工智慧技術的未來進行了展望。作為國內第一家將自動語義分析技術應用於行業中的人工智慧公司,達觀資料成立於 2015 年。這家公司旨在用文字語義自動分析技術為企業級客戶提供文字自動抽取、稽核、糾錯、搜尋、推薦、寫作等智慧軟體系統。
該公司的 CEO 陳運文博士畢業於復旦大學,他同時也是上海市計算機學會多媒體分會副會長、國際計算機學會(ACM)和國際電子電器工程師學會(IEEE)高階會員,中國計算機學會(CCF)會員。他曾擔任盛大文學首席資料官,騰訊文學高階總監、資料中心負責人,百度核心技術研發工程師等職務,曾帶領團隊多次獲得 ACM 競賽冠亞軍。
達觀資料創始人、CEO 陳運文博士
陳運文的職場經歷,無論是百度的搜尋引擎技術研發,還是盛大文學的資料負責人,都是在與資料打交道。他曾經研究利用技術挖掘資料提高公司的效率和收入,而在達觀資料,他領導開發的技術力量已經可以剖析使用者的海量資料,為更多企業提升收益。
達觀資料是一傢俱有學術背景的公司,專注於將最新 自然語言處理技術應用到具體場景中。「這件事情很難,但是我覺得特別有意思:我們面臨著很多的技術挑戰,有很多的工作要做,有困難才有動力。」陳運文表示。
文件審閱 2.0
在達觀資料描繪的未來裡,計算機並不會百分之百的代替人,它會作為人類的助手存在,對文件進行快速處理,補充人類的不足之處。人工智慧演算法可以發現人們容易忽略的錯誤。而人類在工作流程中的任務是複查計算機給出的結果,這樣可以大幅度提高工作效率。
在金融等對於文字準確性要求很高的行業中,計算機具有快速處理資料的能力,對內容的複核,包括字詞的複核都有天然的優勢。
達觀資料的文件智慧審閱系統可以一鍵稽核數十種常見風險。
在這個過程中,達觀資料面臨著很多挑戰。「我們希望讓計算機理解金融行業裡的領域知識——『Know how』,」陳運文表示,「讓演算法和專業內容更加緊密地結合在一起。因此,我們投入了大量精力去了解和掌握金融行業員工日常的操作方式。我們需要把領域內的知識固化到軟體系統內,這樣軟體才能像白領員工一樣進行工作。」
陳運文表示,達觀資料的語言處理模型在訓練時使用了兩部分資料,一部分是特定領域內的語料資料,包括行業中公開的語料資料、資料、專業術語等。公司技術人員已投入大量精力對資料進行了採集、歸納整理和分析。另一方面,達觀資料的客戶多年來也積累了大量高質量行業資料。通過高質量的資料訓練演算法,計算機系統會變得越來越聰明。據稱,在一些具體操作中,達觀資料的系統已具備了遠超過普通人類的處理能力。
達觀資料的文件稽核系統在糾錯演算法和稽核演算法中採用了 LSTM 等技術,其 2.0 版還引入了 遷移學習和增強學習。複雜的模型帶來了更高的 準確率,但也意味著計算成本的提升。而陳運文表示,即使在這樣的情況下,計算機帶來的便利性也大大超過了人力成本。
「 深度學習、 LSTM 等演算法確實是比傳統統計學習需要耗費更多的算力,」陳運文介紹道,「但另一方面,相比於高昂的人力成本來說。這些演算法背後依賴的硬體成本即使在今天看來也並不高。由 GPU 組建的叢集需要的成本比一群金融業白領的年薪要低得多。」
算力問題並不會成為實踐面臨的障礙。除了已有的效率優勢之外,另一方面,硬體的成本每一年都在降低。達觀資料認為,在未來, 文字挖掘、 自然語言處理的成本會降低到難以想象的地步——而要付給員工的工資只會不斷增多。
在可用性方面, 機器學習系統也有著自己的優勢。在達觀資料很多客戶的專業領域內,培養一個專家需要很多年的時間,在此之後,經驗和知識又很難遷移到其他人身上。而在今天,計算機軟體系統一旦訓練好,就具備了類似人類專家水平的能力,同時可以零成本地進行復制,服務更多人。
達觀資料曾做過比較,現在一臺伺服器提供的工作能力基本相當於 15 個普通的員工。而隨著硬體成本的下降,這個數字還將不斷提高。現在一臺伺服器執行一年的成本可以是 2 萬元以內。
在提高計算並行化效率上,達觀資料的產品採用了 Mini batch 等新技術。同時,其模型也結合了 LSTM、CNN、統計學習等方法,通過獨有的雙層組合學習的方法,整個系統可充分發揮各種演算法的優勢,讓演算法的能力發揮到最大。
逐漸成型的市場
在技術以外,如何向傳統公司推廣人工智慧產品也是擺在各家 AI 科技公司面前的難題。在達觀資料看來,目前最困難的起始階段已經過去。
「坦率地說,應該感謝媒體,它們過去三四年來對於人工智慧進行了大量的宣傳報導,」陳運文表示,「我們發現傳統行業客戶,不論是領導還是一線的員工,他們都對人工智慧、大資料和資訊化帶來的價值有所瞭解。我們現在向客戶介紹產品沒有什麼障礙,客戶都很樂意去嘗試先進的技術。」
但解決方案成型關鍵在於如何很好地解決客戶面臨的問題。
達觀資料認為,今天中國的 AI 產業正處於歷史上很好的一個時期——來自各行各業的客戶們已經開始願意接受新興的技術——但這也意味著科技公司不能製造泡沫,必須打造優秀的產品,要讓客戶覺得產品配得上人工智慧的稱號。
在 NLP 的賽場上,一些科技巨頭也在不斷展示著自己的實力。面對競爭,陳運文認為國內 AI 公司的優勢在於能夠提供個性化的服務:「微軟在 NLP 領域有著強大的技術實力,但中國本土的企業並不落後。我們的優勢在於可以向客戶提供貼身的服務。」達觀資料在實踐中發現,每一個客戶的需求都有些許的差異——很難用一個通用化的模型來滿足不同客戶的個性化需求。
這家公司致力於為客戶提供解決實際問題的系統,提供定製化方案,而不是通過一個大而全的平臺,試圖通過一個演算法解決大量問題——這樣很難把一個具體的問題解決的足夠好。
目前達觀資料的文件處理系統已經發展了大量客戶,其中包括很多世界五百強的大型企業,金融行業、新聞媒體、法律行業和政府。如招商銀行、平安信託、華泰證券等等金融領域的公司;以及華為、海爾等五百強企業裡的標杆客戶。這些客戶、行業的特點是它們都會接觸大量的文件資料。
達觀資料文件處理系統下一步的推廣目標是傳媒行業、政府和事業單位。這些機構每天都面臨著大量的文書處理工作,而目前為止,所有這些都需要耗費大量的人力,未來這家公司提供的系統將會大幅解放這些人力。
達觀資料發現,很多發達地區的地方政府對於新技術具有很高的熱情。比如行政審批,這幾乎佔到了政府部門 1/3 的工作量。這些工作目前都還是依靠大量的基層公務員來做的。達觀資料預計,它們中的很大一部分,包括預審、材料檢查等都可以在未來由計算機來承擔。
技術優先的團隊
基於公司的基因,陳運文為達觀資料選擇了面向企業客戶的道路。經過三年多的發展,這家公司已形成了規模近 200 人的團隊,其中研發團隊佔六成。這家公司有著濃厚的技術氛圍,一直在不斷發表介紹 NLP 技術的部落格,舉辦演算法大賽。
「我自己也在寫技術部落格!我們對於技術的態度非常開放:技術是要拿出來分享的。」陳運文表示,「我特別鼓勵員工總結自己的經驗和想法,把它寫成文章發表出來,讓所有 文字挖掘的愛好者都能夠看得見。這樣對於整個產業都是有益的。」
達觀資料有很多工程師都公開發表了技術部落格,這些文章經常會填補國內在特定領域上技術文章的空白。
陳運文曾帶隊參加 ACM 資料競賽並獲獎。
陳運文也有著資料競賽的情節。他曾作為隊長組隊參加過很多國際演算法競賽,並拿到過多個冠軍。達觀資料舉辦了自己的 NLP 資料競賽:「達觀杯」文字智慧處理挑戰賽。據介紹,今年的比賽已經吸引了 2000 餘名參賽選手,成為了目前國內規模最大的文字挖掘比賽。達觀資料認為,能夠聚攏全國最具實力的文字挖掘愛好者共同解決一個問題,是一個很有意義的事情。
在 2017 年 4 月的 A 輪融資後,達觀資料已經推出了多種產品,並迅速擴充了業務。陳運文字次還透露,達觀資料即將在 2018 年第三個季度公佈自己的 B 輪融資交易情況。這將成為中國目前為止 自然語言處理領域內最大的融資之一。具體細節很快即將公佈。
文字挖掘在中國,不僅是在技術上,還是在應用上都仍處於早期狀態。在未來,達觀資料的發展將會著力於兩個方面,一方面繼續加大技術上的投入:把中文的 文字挖掘技術做深做透。而在應用方面,達觀資料希望改變中國傳統企業「人拉肩扛」的原始文字處理方式,為眾多客戶帶來自動化。
「我們認為,大量的文書處理應用場景未來一定需要更好的工具、更自動化的手段,去幫助人們提高工作效率。」陳運文表示,「我們會開發更多的應用,部署到每個行業、每個客戶身邊。對於我們來說,未來還有很多工作要做。」作為一家專注於語義理解技術的 AI 企業,達觀資料文件智慧審閱系統 2.0 版本只是一個開始,這家公司還希望在未來向普通使用者提供更多產品。
「也許等我們有足夠的資源和力量的時候,會嘗試推出一些面向消費者的文書處理工具。未來也許每一箇中國的消費者,在頭疼於文書處理中時,達觀資料的系統可以為你們提供幫助。不管是寫作、修訂、審閱、分類,人工智慧系統都能夠大幅度提高人們的工作效率。」陳運文表示。