RPA機器人資料抓取典型案例全流程詳解

encooRPA發表於2022-05-17

資料抓取是實現流程自動化最關鍵的技能之一,尤其是Web資料抓取,但面對每個具體的業務場景和網站,如何穩定、高效地實現資料抓取?

在實戰中進行資料抓取時,需要注意哪些問題?


這篇文章我們就來透過一個 企查查查詢資訊的案例,分析提高Web資料抓取流程穩定性的關鍵知識。


RPA機器人資料抓取典型案例全流程詳解


本文大綱


1. 資料抓取的基礎邏輯

【資料抓取定義】

資料抓取是指在特定介面抓取指定資料,透過指定一個或兩個元素,實現自動識別元素規律;透過指定下一頁按鈕,實現自動翻頁獲取資料。從而達到獲取指定最大提取條數範圍內的資料,提升工作效率。

對應元件: 獲取結構化資料。獲取結構化資料元件在瀏覽器端和桌面端使用,實現資料抓取需求。


【如何實現資料抓取】

  • 獲取整表資料
  • 獲取整表內單列資料
  • 獲取整表內某幾列資料
  • 自動翻頁,獲取下一頁資料
  • 獲取指定最大條數範圍內資料
  • 將獲取到的資料存入資料表


2. 流程目標與獲取

【流程目標】

開啟企查查網站,輸入關鍵詞,查詢指定地域、指定年份的案件資訊,抓取所有被告的詳細資訊。


【流程獲取】

首先,我們可以在雲擴RPA編輯器流程市場獲取本文相關流程:新建--輸入“查詢資訊”--搜尋--點選“ 企查查-查詢資訊”--點選“開啟”


RPA機器人資料抓取典型案例全流程詳解



RPA機器人資料抓取典型案例全流程詳解



3. 流程設計分析

透過拆解流程目的,我們可以將流程拆解為四個部分:

【確定查詢條件】

  • 繫結瀏覽器,點選查風險
  • 根據引數“關鍵字”設定,輸入關鍵字,點選“查一下”
  • 勾選“開庭公告”“立案資訊”
  • 選擇地區,這裡要注意的可能要點選“更多”展開所有地區,如果已經展開,這個點選失敗後繼續
  • 選擇年份


RPA機器人資料抓取典型案例全流程詳解


【搭建資料表】


RPA機器人資料抓取典型案例全流程詳解


【迴圈翻頁抓取資料】

  • 獲取案件 基本資訊:案由、開庭時間、原告資訊、被告資訊
  • 在被告連結列表中,若被告帶有連結,則 需開啟連結,獲取法定代表人電話、郵箱等資訊


RPA機器人資料抓取典型案例全流程詳解


【資料儲存】


RPA機器人資料抓取典型案例全流程詳解



4. 流程編輯

【修改元件名稱,便於運維檢視】

獲取一個新的流程模板後,我們應當儘量將元件名稱更改為 與流程業務相關的名稱,便於之後進行運維、他人檢視。

例如,下圖將4個“ 獲取文字”更改為具體獲取的文字內容,可以明確每個獲取文字的具體內容,在出現問題時迅速定位到相關元件。


RPA機器人資料抓取典型案例全流程詳解



【使用錨點元素定位,保證定位穩定性】

選擇變化可能性較小的元素,可以幫助我們定位穩定性。

在此案例中,由於 法律風險分類可能會發生順序或數量變化,但“開庭公告”、“立案資訊”型別名稱變化的可能性相對較小,因此我們可以透過所需的型別名稱定位勾選框,提升元素定位穩定性。


RPA機器人資料抓取典型案例全流程詳解



【透過“獲取結構化資料”抓取資料,保證資訊完整度】

由於案例中每個案件的被告數量都不相同,我們需要使用 獲取結構化資料元件抓取所有被告資訊,達到獲取所有被告資訊的目的。在獲取的被告列表中,可以再透過對應的URL抓取被告的詳細資訊。


RPA機器人資料抓取典型案例全流程詳解



【迴圈遍歷開啟新頁面獲取資訊,新增錯誤處理,保證資料抓取穩定性】

案例中,在獲取被告詳細資訊時,可能會遇到被告資訊不完整的情況,此時需要在流程中新增 錯誤處理,設定如果資訊缺失則忽略,由此可以提升流程穩定性。


RPA機器人資料抓取典型案例全流程詳解



  • 總結

這篇文章,我們透過經典案例分析,講解 如何提高資料抓取穩定性。

在講解之前,我們先 理解了資料抓取的基本邏輯,清晰了資料抓取的定義和實現流程。

隨後我們確定了案例的 流程目標,可透過獲取流程實操案例。

我們依據流程目標,分析確定了 流程設計:確定查詢條件、搭建資料表、迴圈翻頁抓取資料、資料儲存。 

最後我們分析了流程編輯中 提高穩定性的四個關鍵點:修改元件名稱、使用錨點元素定位、透過“獲取結構化資料”抓取資料、新增錯誤處理。


相關影片

【案例-通用010】資料抓取系列:3分鐘解決二次抓取&資料延遲【雲擴RPA】

【案例-通用011】資料抓取系列:我居然在企查查上自動獲取了所有需要的詳細資訊:8分鐘教你學會個性化查詢指南【雲擴RPA】


再學一會兒

程式設計師日常系列


RPA機器人資料抓取典型案例全流程詳解



與技術大牛交流 & 獲取優質RPA實際案例 & 行業大咖+技術牛人講解

掃碼新增【雲擴小助手】


RPA機器人資料抓取典型案例全流程詳解


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015058/viewspace-2894836/,如需轉載,請註明出處,否則將追究法律責任。

相關文章