自然語言理解一方面承載著機器與人的交流,另一方面直達知識與邏輯。視訊領域已經有諸如商湯科技、face++等知名創業公司,但對自然語言的智慧化處理才剛剛開始。
讓機器處理自然語言,難度在於人類資訊表達的靈活性以及無處不在的長距離邏輯關聯,這種邏輯關聯既包含來自語言結構的依存關係,也包含語義層面上的邏輯關係,且二者相互滲透。同時,處理文字也需要對知識(包含領域知識和常識)的大量依賴。
就自然語言理解來說,這項技術經歷了從符號智慧到統計學習、再到深度學習的發展和演化。深度學習雖然風頭正勁,但其擅長的是通過神經網路的「模糊表示」來處理資訊表達的靈活性,長距離的邏輯關聯問題則需要符號智慧來解決;而要解決對知識的依賴,則既需要神經網路的方法來記憶和運用各種瑣細靈活的知識,又需要利用符號智慧來進行知識的儲存和呼叫。
深度好奇成立於2016年底,這個團隊堅信,深度學習和符號智慧的結合,或者說神經符號智慧,將是下一代自然語言理解的新正規化,也是解決自然語言理解這個困難任務的唯一路徑。
在文字處理領域,深度好奇是全球第一家成功研發出基於神經符號智慧的商用化系統並實現場景落地的公司。具體來說,深度好奇以神經符號系統為核心技術思想,構建了以OONP(物件導向的神經規劃)為核心技術框架的自然語言理解技術平臺,其中包含多個自研技術模組,並體現為兩大功能平臺:複雜文字理解和對話系統。
目前深度好奇以高壁壘技術和領域深度結合為路線,專注公安和金融兩大領域,在上述平臺的基礎上開發了公安案情語義圖譜、智慧視訊稽核、語音視訊排程等產品,未來會繼續以標準化產品賦能更多場景。這不同於自然語言處理這條賽道上之前很多的創業公司:它們往往利用開源的技術完成基本的分類或者簡單的知識圖譜,而這離行業化落地的技術標準往往相距甚遠,同時也無法構建有效的產品優勢。
深度好奇創始人呂正東告訴筆者,深度學習更偏向「端到端」的學習模型,比如讀一段區域性文字,輸出一段內容。這裡的痛點在於輸出內容往往顆粒度較低,不能結合上下文以及相應的知識背景進行推理。以和理解相關的常見應用為例,「情感分析」往往只是判斷感情是正面還是負面,而「命名實體識別」也只是標出實體(比如人、組織、地名等)的名稱;但即使是這樣的粗顆粒度,準確率也往往在達到一定水平之後裹足不前。
而深度好奇搭建的以OONP為架構的平臺,則對人在理解文字時「一邊閱讀一邊理解」的方式實現了模仿。在讀一篇文字時,OONP會動態儲存關於所讀內容的理解,生成相對應的「不完全態的」語義圖譜,並在後面的閱讀中不斷訪問和完善這個知識圖譜,直至讀完全篇並生成整篇內容的語義圖譜。OONP的框架允許神經網路和符號智慧在表示、運算及知識層面上的結合,就技術而言,已遠遠超出深度學習這種「端到端」模型所能實現的範疇。
深度好奇的第一款產品「語義圖譜」的落地場景是在公安領域,具體來說,可以根據不同形式的複雜文字(比如警察整理的案情資訊、報案人的詢問筆錄、勘察報告等檔案)推演出一套已知案情的完整語義圖譜,實現資訊的串聯和比對,提供串併案推薦和警情預警等決策輔助。這種圖譜既包括事件邏輯,也涵蓋有資訊量的細節,比如時間、地點、犯罪特點、犯罪手段等事件的核心要素。在這類解析任務上,深度學習的方法準確率可以達到72%,OONP的準確率則超過了90%。
(案情語義圖譜產品)
同在公安領域落地的還有一款「語音排程」產品。公安系統長期存在的痛點是如何快速找到指定的攝像頭並對其進行一系列操控。傳統的操作是基於GPS系統在地圖上點選攝像頭,或在系統多級目錄中一層層查詢攝像頭,無論哪種方式都需要滑鼠操作;這其中還埋藏著更深層的痛點:這些辦法都需要操作員瞭解明確的地址資訊。
對此,深度好奇的智慧語音排程產品是以對話機器人的形態,理解和執行指揮員關於攝像頭的定位、控制、錄影操作等需求。具體來說是從公安的視訊平臺切入,通過指揮員與機器人進行兩三輪語音對話,將語義資訊轉化成後臺系統理解的資訊。對於指揮員來說,他可以不知道攝像頭對應的嚴格的地址名稱,而只需要瞭解和攝像頭相關的時間、空間、視訊內容等關鍵資訊。利用語音排程這種形式,平均可以節省指揮員三分之二的資訊調取時間,單任務的操作成功率達到90%以上。
(智慧語音排程場景圖)
第三款已商用的產品「智慧視訊稽核」更像是跨NLP領域的反欺詐工具,一個典型的應用場景是個人小額信貸。傳統的視訊識別能夠確定被稽核人是誰,但無法確定這個人其他非視覺資訊的準確性,比如現居地、工作單位等。深度好奇的這款智慧視訊稽核產品,則在基於視訊的人機互動過程中通過語音追問來進行交叉驗證。具體來說,通過對接第三方資料平臺,結合人臉檢測/識別技術,視訊終端會依據被稽核人的回答提出不同問題,在語音互動中進行資訊碰撞,同時視訊實時記錄動作、表情等資訊,進一步勾勒待審批人的真實「面貌」,並在審批結束後提供信用評級及相關建議。
(智慧視訊稽核產品,截圖右上角為虛擬稽核員的形象)
2018年深度好奇的主要營收來自語音排程和智慧視訊稽核產品,語義圖譜則是公司持續關注和大力投入的領域,目前市場已延拓至浙江、廣州、安徽等省市,領域涵蓋情報、刑偵、緝毒、反恐等。呂正東告訴筆者,深度定製化服務在保證使用者滿意度的同時,也是為了進一步打磨產品。2019年深度好奇會繼續加大研發,並以更多標準化產品的形式加深領域內的價值挖掘。
呂正東是留美博士,曾任職於微軟亞洲研究院,之後建立並帶領華為諾亞方舟實驗室的深度學習團隊成為國際上可以和Deepmind、Google Brain、Facebook AI research比肩的語言智慧研究團隊之一;他在2015年發明了世界上第一個完全基於深度學習的聊天機器人「神經響應機」;在NLP領域國際頂會ACL近5年排名前30的高引用論文中有4篇來自中國,其中3篇出自他領導的團隊。另外兩位聯合創始人李祥生、買天讓分別為資深商務及媒體人士,具豐富社會資源。目前深度好奇團隊有40餘人,其中80%為研發人員。
深度好奇成立之初即完成合力資本及阿米巴資本的千萬級天使輪融資,目前正在進行A輪融資,主要計劃用於研發支出及市場推廣。