以下為孫林君的演講內容,機器之心進行了不改變原意的編輯、整理:
大家好,非常榮幸能夠來到這個場合跟大家做分享,我今天帶來的話題是《數字員工——AI 在 RPA 領域的應用與落地》。
AI 是一種通用的智慧化技術,但過去在泛行業領域的發展遇到了一些問題,很難有大幅突破。我們現在更關注 AI 與垂直行業結合帶來的化學反應。坦白講,大家原本對 AI 技術抱有很高的預期,現在已變為實實在在的落地,我們更希望看到 AI 在真實行業中發揮作用。
什麼是數字員工?數字員工就是機器能夠代替人去做一些重複繁瑣的工作,輔助人做決策。在未來的幾十年,中國處於人口老齡化的階段,適齡的勞動人口在減少,勞動力成本進一步增加,同時 GDP 要持續增長,這種情況下我們的勞動力缺口是比較大的,數字員工的出現將在很大程度上彌補勞動力缺口。
實在智慧創立於 2018 年 7 月,到現在已有 4 年時間。我們在 RPA 領域融合 AI 技術,打造了各種各樣的數字員工。實在智慧先後經歷了 6 輪融資,有超過 60% 的同事是科研人員,員工規模近 400 人,目前已掌握 120 項自主智慧財產權,申請專利數超過 40 項,近 20 項是實授專利,居行業第一。
RPA 全稱叫機器人流程自動化(Robotic Process Automation)。舉個簡單的例子,工廠需要很多的自動化操作,機械臂可以很精準地完成一些規則化、重複的勞動。除了工廠,辦公場景下自動化也有非常大的空間,智慧化的出現讓該領域得到了長足的發展。
在辦公場景下,很多白領的日常工作也包含很多瑣碎的工作,比如在財務、運營、法務、客服等很多職能場景中,一些工作是重複且可被替代的。但透過自動化的技術,就能用軟體把人的操作錄製或者模擬出來,機器就可以模擬人的操作進行工作,準確率高少出錯。這項技術已經出現了很久,大約 15 年前,美國就在很多大型科技企業中應用,到了今天,國內已經有非常多的 RPA 公司湧現出來,包括傳統的 RPA 以及和 AI 結合的 RPA(IPA)。我們是一個典型的與 AI 技術結合的 RPA 公司,最近幾年的長足發展也與 AI 緊密相關。自動化技術和 AI 技術融合到一起才是未來數字員工的真正形態。
RPA 最開始只能做最簡單的重複工作。如果機器想真正幫助白領高效工作,就要有很多工業化的設計。傳統 RPA 的設計器裡都是元件化的東西,拼裝就可以完成,這樣不用寫程式碼,使用者只需要關注業務邏輯就可以了。這種傳統方法實現成本低,門檻也比較低,對使用者來講也比較友好。
隨著人工智慧的興起和發展,我們也發現傳統 RPA 裡其實有很多地方是可以和 AI 進行結合的,例如和語音技術、OCR 結合,這些是簡單的加法。另一方面,RPA 技術本身存在一些瓶頸,例如我們要控制各種各樣的軟體,首先要識別這些軟體裡的東西,但是在識別上,我們是強依賴於作業系統底層的。這種情況使用傳統技術就面臨很多瓶頸,而 RPA 技術與 AI 結合可以獲得較大突破。行業天花板被推升以後,與 AI 結合的 RPA 技術可以真正泛化到所有行業的軟體上,併成為普適性的自動化技術。
另外與 AI 結合後,數字員工的能力會實現從感知到認知的飛躍。感知能力就是各種識別、互動技術,認知能力就是能夠結合大量資料做出推斷。只有在認知層面將 AI 與 RPA 技術結合才能構建真正的數字員工。規則化的工作在我們日常場景裡大概只佔 20%-30% 的工作量,但如果 RPA 可以在認知層面代替人們完成非創造性工作,那麼滲透率就可以達到 90%,所以數字員工未來的發展空間還是非常巨大的。
RPA 本身有一些能力上的限制,我們要把它變成 IPA,結合 AI,好比人的眼耳口鼻和大腦,能夠對話、理解、觀察和思考,這才是真正的數字員工。
我們回到本源的問題,RPA 能夠代替人控制所有的軟體,去完成規則化的工作,其中有兩個能力最關鍵:第一個是軟體的控制能力。透過作業系統底層去控制軟體的時候,我們要知道 RPA 的介面能力,或者說要識別到每一個要素,這取決於作業系統底層的開放性。現在主流的做法是結合計算機視覺來提升 RPA 的能力,讓 RPA 能夠對所有的軟體都適配,這就涉及非常多的技術挑戰;第二個關鍵能力是資訊提取能力。我們知道,現實世界中的資訊並非都是結構化的,往往是隱藏在一段文字里,或是不同介質的表格裡。我們要把這些資訊抽取出來,比如甲乙方是誰,他們之間是什麼樣的關係,就離不開大量的資訊提取技術。這和自然語言處理和計算機視覺都有關係。
更強大的軟體控制能力
我們先看一下軟體控制能力。螢幕背後也是一個世界,所有的軟體都在裡面。我們要知道畫面上到底有什麼樣的元素或者物體,我能夠對它做什麼——先解決識別問題,再解決操作問題。透過作業系統底層解決識別問題時,我們會發現各種各樣的軟體是沒有辦法識別的,有時識別出來的就是一個大的框,有時是多個細粒度的元素粘連在一起,這樣就無法進行軟體操作。例如選單中可能包含多個級別的小選單,如果不能做到細粒度的準確識別,就無從談起對軟體的完美操控。
因此,我們希望開發出的工具普適性是非常強的,而不是隻能給若干類軟體做適配。而且軟體會升級,技術架構會變更,這種情況下傳統的 RPA 很難做到完美適配。現在很多 RPA 公司受限於技術的瓶頸,會被侷限在某一個行業裡。所以我們希望我們的 RPA 產品能夠變成通用化的產品,變成真正自動化的工具。
另一方面,環境的影響也非常大。在不同的作業系統下,不同的軟體組合情況,面臨的拾取和識別問題也是各種各樣的。
此外,在操作方式上,如果 RPA 技術只能透過寫指令碼的方式實現,那麼它依然是非常小眾的,只有程式設計師能夠使用,這距離辦公環境下「人人可用」的目標還有非常大的距離。
那麼我們就要思考:如何能讓使用者非常簡單地使用上 RPA 技術。例如當作業系統底層的識別不行的時候,很多工作都要依賴計算機視覺的方法,但要使用不同的元件。這對使用者來講,成本非常高。於是我們考慮把這兩種技術融合到一起,以實現一種對使用者來講非常自然的過程——即使用者不需要考慮什麼時候使用計算機視覺,什麼時候藉助作業系統底層。這裡就要解決非常多的技術難點。
首先是要解決精度問題。無論是多麼細微的目標,或是多麼複雜的目標,我們都要識別出來。如果我們想把使用門檻降到最低,那就要把不同的技術整合在一起。在速度方面,用計算機視覺的方式識別,效率天然會比底層要低一些。那麼如何能夠讓使用者有一致的體驗呢?那就要在不損失很多準確率的前提下把模型變得很小,以便於在 CPU 的環境上穩定執行,這樣能節省掉很多硬體資源。因為使用者不會為了使用 RPA 產品單獨採購 GPU(圖形處理器)。
我們知道在軟體層面,特別是涉及到計算機視覺時,介面的 DPI(影像解析度)是不一樣的。假設我在一臺電腦上設計了一個流程,現在要部署到 100 臺電腦上,不同電腦的解析度可能不一樣,作業系統環境可能不一樣,顯示器的大小也可能不一樣。我們要解決的問題是在這些差別的情況下保證軟體的穩定執行,替換解析度也能保持一致。在介面大小上,當我們把一個軟體介面進行拖拽的時候,介面會發生形變,這種情況下我們還要能找到操作的元素,這就涉及到形變重識別的問題。
面對這麼多複雜的挑戰,我們在業界首先提出了「融合拾取」的概念,並將這一技術實現出來。僅圍繞提升軟體控制能力就有十幾項的難點,我們都申請了相應的專利來解決。現在我們再拆解一下,看看其中的具體難點。
下圖是一個融合拾取執行的情況,畫面上有很多類軟體,包括網頁、CS 架構的軟體、還有作業系統原生的畫面。在這種情況下,傳統的 RPA 要用不同的元件來控制它,而且效率是非常不一樣的,使用 CV 方法的效率就會很低。而我們實現的融合拾取方法可以在四種應用之間無縫切換,體驗一致。對於辦公環境裡複雜的要求,融合拾取技術可以做到非常完美的控制。
實在 RPA 的融合拾取能力,可實現同屏多物件無縫切換拾取
這裡有幾個比較大的挑戰,第一個是如何去適配各種各樣的軟體。我們知道軟體的種類特別多,在不同的設計規範下,識別層面怎麼實現通用性呢?我們經歷了若干個階段,從多模型到單模型到後來極致效率的單模型 2.0 階段,我們在耗時層面、召回層面做了很多工作,一步步發展成現在相對比較通用的識別技術。
第二個要解決的是成本問題。我們在不能提供 GPU 環境的情況下,想把模型變小,這就用到了剪枝、蒸餾、量化等方案把模型構建出來。對於計算量不能太大的情況,我們也設立了元素相似度的色彩空間對映方法來降低計算量,在算力層面儘量把技術做到極致。
還有一塊是跨解析度、畫面變化與重疊的情況,為了能夠識別出原來識別的物件,我們的把 CV 領域行人重識別的概念引入進來,採用基於 ReID 的技術並做了大量最佳化,最終取得了非常好的效果。對拾取層面來說,我們要把介面的佈局做相應拆解(涉及影像語義理解),然後做檢測,最後再做匹配。每一個環節都有相關的技術在發揮作用,其中的挑戰來源於多個方面:準確度、穩定性、唯一性。這些是需要持續打磨的,是一個與技術強結合的問題。
RPA 的瓶頸還遠不止這些。例如在執行的穩定性方面,軟體環境裡有時會出現彈窗,而配置流程時沒有預見到這個情況,流程可能就會被卡住,這種情況下我們需要系統能夠自動識別到彈出了一個非常規的視窗,然後把它關掉,這樣就有了輔助流程的概念。並且當按鈕背後的 ID 發生變化時,或者說顏色發生了變化,系統還能以最大機率把它找出來,讓流程執行下去,這個問題也要透過多種演算法來解決。去年我們聯合機器之心針對這個問題做了一個評測,在 360 軟體庫裡隨機抽取了一些軟體,面向多個指標進行評測,結果表明我們在這項技術上是遙遙領先的。
機器之心行業評測資料總表:實在智慧位列第一
更強大的資訊提取能力
下面我們來看一下資訊提取能力。日常工作中我們經常要彙總報表,把 A 系統的資訊下載下來處理之後錄入到 B 系統(例如財務的報稅),這需要大量的資訊提取以及加工處理再操作軟體去完成,這是一個非常重要的工作。這裡面有一個概念是 IDP——IDP 是智慧文件處理(Intelligent Document Processing),它是集資訊提取和資訊處理等能力的 AI 產品,它每一項細粒度的能力可以在 RPA 裡作為一個元件,與自動化的部分拼裝起來,完成各種各樣的工作。
在 IDP 領域裡,常見的任務有識別各種格式、各種介質的文件,對比不同格式的檔案,抽取合同中的主體(包括甲乙方資訊、訂單編號以及約定內容),特別是表格裡的資訊也要抽取出來,如果抽取的資訊有問題,後面還要做自動的校對,有些還要根據業務邏輯做校正,這裡面應用了大量相應的技術,包括 OCR、NLP 中的長短實體抽取等。
即使是看起來非常簡單的文件,比對和稽核也要用到非常多的智慧化技術,比如對頁首頁尾的識別、對錶格區域的識別和還原、對分欄區的處理,其實都需要特定的技術,而不是一個通用的識別就能做好的,其中每一項都要做得非常細緻,提高準確率。在合同對比或者財務、法務的工作中,這是非常常見的工作,比如我們在某一個地方做了一點點修改,修改前後的文件到底有什麼差別;或者在不同的文件處理階段,比如在簽訂合同時識別出合同風險,並編輯其中的內容,這都跟 IDP 的相關技術有關。例如圖片介質的資訊怎麼跟電子文件的資訊對比,其中包含非常多的細節。
RPA 還需要有更強大的資訊提取能力,包括表格識別等。例如在電商領域有各種商品的類別和型號,透過拍照片就可以把裡面的資訊提取出來。OCR、NLP 等原子化能力對於數字員工來講非常重要,可以變成設計器裡的元件,幫助我們快速拼裝出不同能力的機器人。
基於前面的討論,我們實在智慧的產品矩陣如下圖所示,左側是 RPA 產品四件套,我們有一個使用起來非常方便的低門檻設計器,設計出來的東西執行在機器人上,當有很多機器人的時候,就用一個控制器去排程、分配任務,在有很多資料的情況下,我們可以透過雲腦訓練出決策的模型,這樣可以達到第四階段——幫助人進行決策。另外我們有 AI 的產品矩陣,這個產品矩陣以 RPA 為底座,就可以構造出各種各樣實用的數字員工。
應用案例
下面我介紹兩個應用案例:一個是我們和銀行合作的智慧審單案例。這家客戶有三四百名員工,他們負責稽核大型企業的資金流水、合同以及資質證照等相關事物,最後去給客戶做授信,但授信額度是透過人的經驗並結合一些規則做出的判斷。在這種情況下,我們透過 IDP+RPA 的場景化能力幫他們做資訊稽核、提取、比對,最終幫他們完成了智慧審單。
第二個客戶是一個電商頭部品牌客戶,我們運用實在 RPA 技術把對於該客戶的評論從多個平臺裡彙總出來,並透過智慧決策的平臺訓練出模型,挖掘出裡面隱藏的差評,透過差評分析反向對營銷作出進一步的決策。實際上這是一個結合雲腦和 RPA 做的智慧評論分析場景。
對於一個企業來講,他們在接觸自動化的時候都是從單點開始的,但一旦用上自動化的技術後,從人的天性來講是不願意再退回到手工時代的。因此單點的自動化和智慧化就會逐步過渡成部門級別的解決方案,再下一個層級就是整個公司級別的。如此推動,企業的數字化轉型以及超自動化的藍圖就會逐步形成,整個組織的生產流程也會因為自動化和智慧化的加持,發生本質性變化。
基於前面的討論,我們可以看到 RPA 已經不是一個傳統的只能做規則化事情的技術了,我們更看好的是其與人工智慧技術結合的應用與落地。我們知道人工智慧的應用與落地,本質上是依賴於資料的,而 RPA 讓資料的獲取成本變得非常低,這種情況下再結合自動化,未來的空間是非常廣闊的。在使用門檻、拾取能力、穩定性、實施效率和效能方面,AI 都會發揮很大的作用,我們希望透過 AI 技術的加持,讓 RPA 成為一項普適性技術。
從大勢上看,數字員工會隨著人工智慧未來的落地逐步滲透到千行百業,我們也對這個領域非常看好,將持續透過智慧化技術的創新和應用來賦能和改造這個行業。以上是我的分享,謝謝大家。