【從零開始學爬蟲】模板的高階選項

前嗅大資料發表於2023-01-06

【功能描述】

模板的高階選項

高階選項不常用,其具體說明如下:

【從零開始學爬蟲】模板的高階選項                                                                                        【模板的高階選項】

 


1. 字元編碼

預設自動識別。如果該頁面未能自動識別發生亂碼,需要自行選擇字元編碼。可以選擇GBK或UTF-8。

2. 文件型別

預設自動識別。可以選擇採集xml文件。

3. 網頁型別

適用於一個模板配置大批次網站的情況(可匯入上萬個採集地址),選擇型別後,可以自動過濾不屬於該型別的網頁,從而達到快速配置的目的。

4. 主題過濾

自動識別網頁的語義,進行文字自動分類和主題歸納。可以用於採集某些類別的資料,過濾掉不屬於某些類別的資料。(如有需求請聯絡我們)

5. 未匹配處理模板

適用於一個模板配置大批次網站的情況,當有頁面不符合匹配的型別被過濾掉後,可以在此選擇一個針對未匹配頁面的處理模板,進入其他處理流程。

6. 採集錯誤處理模板

適用於因網站反爬或網路不穩定等原因導致的經常有采集失敗的情況,在此配置採集錯誤處理模板,當有采集失敗的情況時,失敗連結將繼續在錯誤處理模板中執行,進而提高採整合功率。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69987309/viewspace-2931218/,如需轉載,請註明出處,否則將追究法律責任。

相關文章