RPA機器人資料抓取典型案例全流程詳解
資料抓取是實現流程自動化最關鍵的技能之一,尤其是Web資料抓取,但面對每個具體的業務場景和網站,如何穩定、高效地實現資料抓取?
在實戰中進行資料抓取時,需要注意哪些問題?
這篇文章我們就來透過一個 企查查查詢資訊的案例,分析提高Web資料抓取流程穩定性的關鍵知識。
本文大綱
1. 資料抓取的基礎邏輯
【資料抓取定義】
資料抓取是指在特定介面抓取指定資料,透過指定一個或兩個元素,實現自動識別元素規律;透過指定下一頁按鈕,實現自動翻頁獲取資料。從而達到獲取指定最大提取條數範圍內的資料,提升工作效率。
對應元件: 獲取結構化資料。獲取結構化資料元件在瀏覽器端和桌面端使用,實現資料抓取需求。
【如何實現資料抓取】
- 獲取整表資料
- 獲取整表內單列資料
- 獲取整表內某幾列資料
- 自動翻頁,獲取下一頁資料
- 獲取指定最大條數範圍內資料
- 將獲取到的資料存入資料表
2. 流程目標與獲取
【流程目標】
開啟企查查網站,輸入關鍵詞,查詢指定地域、指定年份的案件資訊,抓取所有被告的詳細資訊。
【流程獲取】
首先,我們可以在雲擴RPA編輯器流程市場獲取本文相關流程:新建--輸入“查詢資訊”--搜尋--點選“ 企查查-查詢資訊”--點選“開啟”
3. 流程設計分析
透過拆解流程目的,我們可以將流程拆解為四個部分:
【確定查詢條件】
- 繫結瀏覽器,點選查風險
- 根據引數“關鍵字”設定,輸入關鍵字,點選“查一下”
- 勾選“開庭公告”“立案資訊”
- 選擇地區,這裡要注意的可能要點選“更多”展開所有地區,如果已經展開,這個點選失敗後繼續
- 選擇年份
【搭建資料表】
【迴圈翻頁抓取資料】
- 獲取案件 基本資訊:案由、開庭時間、原告資訊、被告資訊
- 在被告連結列表中,若被告帶有連結,則 需開啟連結,獲取法定代表人電話、郵箱等資訊
【資料儲存】
4. 流程編輯
【修改元件名稱,便於運維檢視】
獲取一個新的流程模板後,我們應當儘量將元件名稱更改為 與流程業務相關的名稱,便於之後進行運維、他人檢視。
例如,下圖將4個“ 獲取文字”更改為具體獲取的文字內容,可以明確每個獲取文字的具體內容,在出現問題時迅速定位到相關元件。
【使用錨點元素定位,保證定位穩定性】
選擇變化可能性較小的元素,可以幫助我們定位穩定性。
在此案例中,由於 法律風險分類可能會發生順序或數量變化,但“開庭公告”、“立案資訊”型別名稱變化的可能性相對較小,因此我們可以透過所需的型別名稱定位勾選框,提升元素定位穩定性。
【透過“獲取結構化資料”抓取資料,保證資訊完整度】
由於案例中每個案件的被告數量都不相同,我們需要使用 獲取結構化資料元件抓取所有被告資訊,達到獲取所有被告資訊的目的。在獲取的被告列表中,可以再透過對應的URL抓取被告的詳細資訊。
【迴圈遍歷開啟新頁面獲取資訊,新增錯誤處理,保證資料抓取穩定性】
案例中,在獲取被告詳細資訊時,可能會遇到被告資訊不完整的情況,此時需要在流程中新增 錯誤處理,設定如果資訊缺失則忽略,由此可以提升流程穩定性。
- 總結
這篇文章,我們透過經典案例分析,講解 如何提高資料抓取穩定性。
在講解之前,我們先 理解了資料抓取的基本邏輯,清晰了資料抓取的定義和實現流程。
隨後我們確定了案例的 流程目標,可透過獲取流程實操案例。
我們依據流程目標,分析確定了 流程設計:確定查詢條件、搭建資料表、迴圈翻頁抓取資料、資料儲存。
最後我們分析了流程編輯中 提高穩定性的四個關鍵點:修改元件名稱、使用錨點元素定位、透過“獲取結構化資料”抓取資料、新增錯誤處理。
相關影片
【案例-通用010】資料抓取系列:3分鐘解決二次抓取&資料延遲【雲擴RPA】
【案例-通用011】資料抓取系列:我居然在企查查上自動獲取了所有需要的詳細資訊:8分鐘教你學會個性化查詢指南【雲擴RPA】
再學一會兒
程式設計師日常系列
與技術大牛交流 & 獲取優質RPA實際案例 & 行業大咖+技術牛人講解
掃碼新增【雲擴小助手】
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70015058/viewspace-2894836/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- RPA機器人有效解決低效能業務流程升級難點機器人
- RPA 機器人自動流程化的三種部署形式機器人
- 「RPA機器人」民宿AI管家機器人機器人AI
- 「RPA客服機器人」千手客服機器人機器人
- RPA機器人流程自動化:探尋人機互動新介面機器人
- 實在智慧RPA帶你瞭解什麼是RPA機器人機器人
- RPA機器人流程自動化賦能與資料化運營機器人
- 如何選擇適合部署RPA機器人的流程和任務?機器人
- 金融日 | 看金融機構資料安全建設典型案例
- RPA機器人解決企業什麼問題機器人
- RPA機器人如何精準瞭解客戶需求機器人
- webpack loader配置全流程詳解Web
- 【RPA】機器人流程自動化(RPA)概念、原理與實踐機器人
- RPA機器人是什麼意思?一文秒懂RPA機器人的前世今生!機器人
- 牛叉,英國最大的水務公司RPA機器人實施案例機器人
- 某頭部地產集團RPA機器人個稅申報案例機器人
- 「RPA機器人」PDF批次轉換成圖片機器人機器人
- Oracle資料庫壞塊典型案例分析Oracle資料庫
- RPA機器人10個優勢機器人
- 如何理解RPA機器人流程自動化機器人
- 人力資源RPA機器人,HR的絕佳助手機器人
- JuiceFS 資料讀寫流程詳解UI
- YASKAWA機器人TCP法詳解機器人TCP
- RPA應用於人資領域的4大典型場景
- 量化機器人系統開發詳細案例丨量化機器人原始碼模式機器人原始碼模式
- RPA機器人流程自動化在IT服務領域的7個應用案例機器人
- 靈巧工業機器人(一)抓取機器人
- Oracle資料庫壞塊典型案例擴充Oracle資料庫
- RPA機器人的“三大鐵律”機器人
- RPA機器人的三大優勢機器人
- RPA結合AI(NLP)便有了“對話式RPA機器人”AI機器人
- Linux開機流程詳解Linux
- Attention機制全流程詳解與細節學習筆記筆記
- 大資料公司挖掘資料價值的49個典型案例大資料
- 資料採集典型案例,如何助力企業搭建資料方案
- 爬蟲抓取網頁的詳細流程爬蟲網頁
- EMC Isilon(OneFS)資料恢復案例詳解資料恢復
- 瓦力量化炒幣機器人系統開發技術詳解丨瓦力量化機器人開發原始碼案例機器人原始碼