3.爬蟲 urlib庫講解 總結

那是個好男孩發表於2019-04-09

urllib庫的總結:

用ProcessOn(安利這個軟體,夠用了)根據前面的幾節內容做了個思維導圖。

urllib庫一共有四個模組:

request:它是最基本的模組,可以用來模擬傳送請求

error:異常處理模組,如果出現請求錯誤,我們可以捕獲這些異常,然後進行重試或其它操作以保證程式不會意外終止

parse:一個工具模組,提供了URL處理方法,比如拆分、解析、合併等

robotparser:主要用來識別網站的robots.txt檔案,然後判斷哪些網站可以爬、哪些網站不可以爬,用的比較少。

相關文章