深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值

机器之心發表於2022-01-25
RPA,全稱機器人流程自動化技術。該技術可按照事先設定的流程,控制計算機完成滑鼠點選、資料處理、跨軟體操作等任務,已廣泛應用於金融、電商、運營商、政務、物流、製造等眾多行業領域,在財務、稅務、人力、內審、法務、風控、客服、運營、IT 等勞動密集型場景取得了非常好的降本增效成果。據 IDC(國際資料公司)統計預測,2018-2023 年全球 RPA 市場規模將持續上漲, 2023 年達到 39 億美元。而中國 RPA 市場規模則將以 64% 的年複合增長率擴張至 10.2 億美元。
深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值
隨著以深度學習為代表的新一輪 AI 技術升級並在越來越多領域內取得突破,RPA 透過結合自然語言處理計算機視覺(cv) 等智慧演算法,在執行任務的複雜度、覆蓋應用場景的廣度也相應提升。

業內普遍認為,隨著 AI 以及 SaaS 平臺、大資料、物聯網等技術的進一步發展,RPA 將從獨立實現轉向更廣泛的嵌入數字流程模型。RPA+AI 的智慧流程自動化被認為在下一個階段將取代傳統的業務流程外包,成為新型的業務流程外包形式。

2018 年,隨著國外 RPA 廠商 Uipath 的崛起,投資者看到 RPA 與 AI 結合的巨大潛力,RPA 賽道迅速成為投資熱點,中國也湧現出一批 RPA 創業公司,投資者、創業者紛紛入局。四年過去了,中國市場的 RPA 產品與 AI 技術結合的效果究竟如何?AI 技術對 RPA 產品升級換代有何貢獻?機器之心聯合多名業內資深技術專家共同完成業內 RPA 產品的首次深度評測。

透過與眾多業內專家的訪談及各行業 RPA 使用者的深入交流,機器之心瞭解到,衡量一款 RPA 產品不可或缺的核心能力,主要透過元素拾取(控制軟體的能力)、穩定性、執行效率等。這是客戶真正關注、看重並願意為之付費的判斷準則。

然而我們發現,大部分廠商對自身產品與 AI 融合的效果描述主要圍繞 “AI 概念” 元件數量、“支援場景”數量等相對錶面的維度,缺少 AI 技術對 RPA 產品核心三要素的影響情況陳述。這樣的描述沒有嚴格的資料支撐,亦無法解答研究小組試圖探索的靈魂問題 ——

RPA 廠商在採用 AI 技術後,其產品的核心能力是否得到了提升?

在尋找答案的過程中,機器之心研究小組與技術專家就當前 RPA 行業遇到的障礙進行了深度探討,並在多位業內 RPA 技術專家的支援下,決定對主流 RPA 廠商的社群版產品進行一次實驗型研究,基於實測資料探索當前 RPA 產品在採用 AI 技術後的實操表現,以期用更深度的視角解析 AI 技術與 RPA 結合的發展之路。

建立評價指標

研究小組透過專家訪談,行業追蹤等方法,彙總多方反饋,在相關 RPA 技術專家的協助下,設計了一套以客觀角度衡量 RPA 三大核心能力的指標:介面控制能力要“準”、任務完成能力要“強”、軟體執行效率要“快”,得到以下評價方案。

深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值

3 個評價維度
篩選評測物件

目前市場公開渠道中開放社群版本的 RPA 產品,主要有 Uipath、Uibot、雲擴 RPA、阿里雲 RPA、實在 RPA、影刀 RPA 等,我們取同一時期的軟體版本,下載安裝了五家主流廠商官網提供的社群版 RPA,歷時月餘,開發了相應的流程評測指令碼(注:由於有些廠商未開放社群版或中途取消了試用功能,未加入最終評測)。

為公平起見,研究小組從軟體庫中篩選出最常用 100 款 windows 辦公軟體,隨機抽取其中 18 款作為測試目標,針對所有廠商實現了一套包含近 700 個元素的識別控制、10 種常見業務流程任務的測試方案,在相同的 win10 系統環境下開展首輪測試。
深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值
18 個常見軟體及執行環境
深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值
10 個常見業務流程及執行環境

計算指標權重

指標權重是指某一因素或指標相對於事物的重要程度。我們重點關注評價指標 “元素拾取成功率”、“流程執行完成率”、“流程執行速度” 對 RPA 產品的影響。採用定性方法進行指標權重賦值,往往說服力較差。基於定量和定性角度出發,專案組採用層次分析法進行指標權重的計算。該方法作為網路系統理論和多目標綜合評價方法,主要應對一些較為複雜模糊的問題作出決策,特別適用於那些難以完全定量分析的問題。基本操作流程:首先建立結構模型(如下圖所示),然後構造判斷矩陣,對判斷矩陣進行一致性檢驗,最終確定各個指標對 RPA 產品的權重 w1、w2、w3。
深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值
研究小組基於層次分析法,構造判斷矩陣並透過一致性檢驗,求解出三個核心指標的權重分別為 w1=0.431,w2=0.325,w3=0.244。其詳細理論依據和過程可參考評測報告原文。

評測過程及結果

研究小組在相同控制變數(執行環境、軟體介面、流程任務、拾取方式等)下,進行兩種模式的對比實驗,即傳統模式和智慧模式。傳統模式,指完全採用普通元素拾取的方式進行流程編輯和執行;智慧模式,指在普通元素拾取基礎上融入 CV 技術的智慧拾取方式。

本次實驗執行流程指令碼總計 10 萬餘次,詳細記錄流程執行日誌並儲存到資料庫。在剔除因執行環境、外界干擾等造成的異常資料後,對 5 家廠商的社群版 RPA 產品,基於三個維度所設定的統一指標進行資料分析。具體分析方法及相應結論如下 ——

一、介面控制能力 

方法

透過指標 “元素拾取成功率” 評價“介面控制能力”。參與拾取元素測試圖示 684 個;對傳統模式下的元素拾取和融入 CV 技術後的拾取方式進行分別測試;人工進行元素拾取後儲存元素庫;開發拾取流程包,執行元素點選流程,記錄是否成功、執行時間、系統引數等日誌並存入資料庫,剔除異常資料。元素拾取成功率評分 = 拾取元素成功個數 / 總元素個數 * 100,計算該項得分。

考慮不同環境下各廠商產品存在設計元件的差異,在評測時,採用完全相同的流程包設計框架且設定相同的延時時間。

得分
深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值
結論

在被測軟體領域隨機的模式下,各廠商的傳統模式拾取能力得分普遍不高,AI 能力對元素拾取提升貢獻突出。

解析

在被測軟體領域隨機的模式下,各廠商的傳統模式拾取能力普遍不高,海外廠商受影響更大,顯然主要透過 windows 底層能力實現拾取的廠商在跨領域軟體控制上受到了很大的限制,傳統拾取模式下,若某款軟體底層架構無法解析,其元素即無法拾取,因此也無法完成最基礎的元件功能。

智慧模式下,拾取效果顯著提升(平均提升高達:48.08%),說明傳統 RPA 廠商和具備 AI 能力的廠商在這一項上的差異巨大!研究小組在測試過程中發現,雖然智慧模式對 RPA 產品的拾取能力提升巨大,但是在細粒度小目標的精準識別上,如在拾取百度網盤、企微、千牛等軟體元素時,偶有發生黏連、識別不到的情況,也有元素框選取不夠準確的現象,顯示各 RPA 廠商在 AI 能力上也有顯著差異,本項測試評分最高的是實在智慧的實在 RPA,在小目標識別的準確度、識別速度和使用便捷性上都讓人感覺眼前一亮,該產品的拾取將 CV 識別和普通識別進行整合,直接在 CPU 環境中執行,可以自動切換模式,對使用者無感,預設智慧拾取方式,同時也提供了普通拾取模式,這大大減少了研究小組構建測試流程包需要在普通模式和 CV 模式之間來回切換構建流程的時間,也讓小編少受了不少折磨。Uipath 的拾取能力在有了 CV 加持以後也得到了大幅提升,迅速回到了頭部位置。

作為 RPA 產品的核心能力,主流 RPA 產品元素拾取能力,透過結合 CV 演算法,一定程度上彌補了軟體品類的限制,基本都達到商業可用的程度,體現了 AI 技術特別是底層模型構建和服務能力對 RPA 產品的重要貢獻。隨著 AI 技術的不斷髮展以及在 RPA 產品上的應用,未來 RPA 產品的核心競爭力,AI 能力必然是重要因素。

二、任務完成能力

方法

透過指標 “流程執行完成率” 評價“任務完成能力”。無報錯執行一個任務流程包至結束視為成功一次,統計成功次數佔比,資料歸一化轉為百分制,計算該項得分。由於不同廠商產品存在設計元件的差異,評測時採用完全相同的流程包設計框架,保持拾取方式一致,且設定相同的延時時間。
  1. 設計 10 個場景任務流程包;對於完全採用傳統拾取模式可執行的任務,單獨統計。

  2. 間歇性迴圈執行流程包任務,將是否成功、執行時間、系統引數等存入資料庫

  3. 評分公式:完成率 x = 成功執行流程數 / 流程執行總數,歸一化採用最簡潔的離差標準化即線性變換,對映至區間[80, 100],分值對映公式為:y=80+(x-min)/(max-min)*20,其中 min=0.68,max=1.00,為歸一化後資料邊界最值,擷取兩位小數。由於傳統拾取模式下只能完成全部流程任務的 70%,為保證評分客觀性,傳統模式下采用完成率乘以係數 0.7 的方式計算。

得分

深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值

結論

傳統模式下,各廠商的任務完成能力無顯著差異,且各廠商的任務完成能力普遍不高,但是智慧模式與傳統模式相比對任務完成能力提升明顯。

解析

本評測模組,重點考察同環境下設定任務的完成能力。傳統的拾取模式限制下,各家產品都存在一定的軟體侷限,某款軟體元素不能識別,會直接導致流程無法操作,任務場景受限,失敗率較高。

智慧模式的 RPA 產品流程包,在無干擾 windows 系統環境下表現出色,任務完成能力評分均超過 98 分,平均提升 18.8%。本項穩定性測試表明,作為老牌廠商的 Uipath,其執行流程非常穩健。值得指出的是,本項指標看上去差異不大,但是在流程執行的絕對數量大幅提升和部署機器人數量巨大的情況下,各個廠商的服務和維護成本會體現出來巨大的差異。

任務完成能力,是客戶對產品的最基本要求,也是機器人產品能力的核心體現之一。一方面,由於服務成本、流程失敗等對客戶影響較大,直接影響客戶的採購和續費,從本項測試可見融入 AI 技術, 以及透過各種智慧化手段提升 RPA 機器人執行的任務完成能力和穩定性是必然趨勢,也對 RPA 廠商的 AI 能力提出更高要求。

本次評測採用乾淨完善無干擾的良好系統環境,得出的結果令人滿意,大部分廠商表現良好,但在複雜噪音多系統下的任務遂行能力,還需進一步深度測試。

三、軟體執行效率

方法

透過指標 “流程執行速度” 評價 “軟體執行效率”。取前項實驗資料,在流程包執行成功的前提下,統計單一流程包效率,累加後,經資料歸一化轉為百分制,計算該項得分。對每個產品,設第 i 個流程包用時秒,成功數量次,其執行效率值為 。歸一化仍採用線性變換,對映至區間[80, 100] 分值,分值對映公式為:y=80+(x-min)/(max-min)*20,其中 max = 0.07,min = 0.04 為歸一化後資料邊界最值,擷取兩位小數。

得分
深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值
結論

流程包在智慧模式下執行,流程執行效率均略有下降。

解析

傳統模式下流程執行,各家表現中規中矩;出現差異的重要原因在於智慧模式下元素拾取的流程耗時差異。智慧拾取的接入,對流程執行速度產生了一定影響,有平均 9% 的下降幅度。

不過我們在本次評測報告撰稿期間,發現實在智慧釋出了 6.0.0 最新版本,其中的融合拾取,體驗下來拾取速度提升達 100%,其速度接近原生拾取,很遺憾由於評測工作量過於巨大及取樣時間已經確定,新的版本不能加入本次評測,但實在 RPA 在本項評測的表現依然可圈可點。

RPA 的目標是輔助人類完成重複性勞動,未來的發展方向也必然是眼(拾取)手(執行)協調的進化。降本增效的剛需下必然對 RPA 機器人的執行速度有更高的要求,能用更少的機器人完成相同的工作,這直接關係到使用者的成本。開發者對產品互動的反應速度要求,客戶對執行速度的需求,使得輕量化 AI 模型成為大勢所趨。使用者普遍對更高效快捷的 RPA 產品充滿期待。

四、綜合能力評價

方法

上述三個核心指標加權求和,權重來源於前述層次分析法。

得分

深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值

結論

AI 技術加持,使得 RPA 軟體在拾取精度、拾取能力、穩定性上有明顯的提升,AI 自研能力強的廠商更佔優勢。

解析

透過三大核心指標直觀比較,雖然融入智慧技術導致流程的執行效率略有降低,但由於其他兩個指標的大幅提升,總體 RPA 軟體在工業場景上應用的可行性得到顯著提升。相比傳統模式的 RPA 產品,智慧模式下綜合評分平均提高近 23 分。從任務完成度 70% 這個資料看,任務場景的嚴苛限制,已經使得客戶無法接受單純傳統模式的 RPA 產品。
從訪談反饋、操作體驗、評測資料細節等綜合來看,各家產品在功能、體驗、面向客戶等方面均有不同的特徵體現,但在三大核心維度評測資料上,實在智慧的實在 RPA 表現出眾,由此我們認為 AI 實力雄厚且勇於創新的頭部廠商更具商業化競爭力和產業化持久力,其“開創性的融合拾取技術、輕量化演算法模型、加持 AI 能力的產品體驗”,是本次評測獨佔鰲頭的主要原因。當然,本測試為體現公平性及考察 RPA 軟體的普適能力,採用隨機選取軟體的方式,可能會對部分專注某些領域內的 RPA 廠商的評測效果有所影響,比如 Uipath 的原生拾取由於受到部分國產軟體無法拾取的影響,在普通拾取方面表現一般。

深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值

評測資料總表

本次評測結果令人欣喜。從評測結果可見,AI 與 RPA 技術的 “融合” 效果得到顯著的體現,這與外界普遍認為的 AI+RPA 不同,二者產生了顯性的化學反應。國內廠商將 AI 與 RPA 融合的創新嘗試值得肯定,我們認為 AI 在 RPA 領域內的應用已經看到明顯效果,並且未來會在眾多垂直行業產生深刻的改變。

透過評測我們看到,軟體的介面控制能力是甄別 RPA 產品最重要的評價指標,也是各 RPA 廠商比拼的核心要素之一,傳統 RPA 產品透過底層技術(windows 底層控制 com)的方式識別和控制軟體可操作的元素,受軟體版本、技術組合、作業系統版本、系統介面差異等眾多因素影響,拾取能力面臨幾乎無窮盡的問題需要解決,這明顯是 RPA 行業的天花板之一。AI 技術的融入為 RPA 拓寬能力邊界,為使用者創造了 “凡是元素皆可拾取、沒有軟體不能操作” 的美好願景。

欣喜同時,我們更有理由展望,RPA 與 AI 技術深度融合,向 IPA 發展是必然趨勢,也是產業發展的良好方向。相信不久的將來,業內這些具有強大 AI 技術和創新能力的 RPA 廠商,會給我們帶來更多更大的驚喜。

下一步工作

當前主流 RPA 產品都有較快的版本迭代,個別廠商甚至達到每週一次小迭代,每月一次大迭代的快速步伐,產品功能、體驗、創新上都有大幅度甚至煥然一新的提升;專案組選取的是同時期各家廠商社群版產品進行評測,考慮到流程包相容性、執行環境更替等,本次評測未進行版本更換。

未來,專案組將繼續跟進主流 RPA 產品的更新迭代,透過深入調研渠道客戶、社群開發者、相關廠商等,增進理解客戶的真實需求,對核心維度進行擴充性的專項深度評測,例如針對複雜極端多樣環境、專業小眾軟體操作、新舊版本、更多場景任務等的能力評價。

此外,專案組也在進一步籌備評測流程包及測試資料集的開源、開放事宜。作為 RPA 產品的首次深度評測,希望起到拋磚引玉的作用,在此,我們也邀請更多業內人士參與進來,構建並開放 AI 能力測試資料集, 推動 RPA 廠商包括社群愛好者參與到 AI 能力打榜,充分發揮 AI 技術貢獻,共同推動 AI 能力與 RPA 產品融合,促進 RPA 產業在良性競爭中健康發展。

評測結論僅代表本次評測環境下的結果體現。

參與方式:https://www.jiqizhixin.com/short_urls/e196963e-a461-41fb-9109-b8777249ac86

點選閱讀原文,透過機器之心 Pro 獲取完整測試報告。

深度實測 | 10萬次執行,探究AI技術融合為RPA火爆賽道帶來的價值

相關文章