Python爬蟲教程-02-使用urlopen

肖朋偉發表於2018-08-05

原文網址 : https://blog.csdn.net/qq_40147863/article/details/81434882

Spider-02-使用urlopen

做一個最簡單的python爬蟲，使用爬蟲爬取：智聯招聘某招聘資訊的DOM

urllib

包含模組
- urllib.request：開啟和讀取urls
- urllib.error：包含urllib.request產生的常見錯誤，使用try捕捉
- urllib.parse：包含解析url的方法
- urllib.robotparse：解析robots.txt檔案
robots：機器人協議，放在網站的開頭，供給爬蟲讀取，當爬蟲讀到robots之後，就知道那些是允許爬取的資料，哪些是禁止爬取的資料
（爬蟲道德問題：1.不許過頻繁爬取 2.不許爬取禁止內容）
案例v1 （使用PyCharm開發工具，配置python直譯器，建立python檔案）
- 我把程式碼放在github了，可以直接下載，地址：
- py01v1.py檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py01v1.py
- request.py文件檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/request.py

   # py01v1.py
   from urllib import request
   
   # 使用urllib.request請求一個網頁的內容，並把內容列印出來
   if __name__ == '__main__':
   
       # 定義需要爬的頁面
       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
       # 開啟相應url並把頁面作為返回
       rsp = request.urlopen(url)
       # 按住Ctrl鍵不送，同時點選urlopen，可以檢視文件，有函式的具體引數和使用方法

       # 把返回結果讀取出來
       html = rsp.read()

       print(html)

上面簡單幾行程式碼就可以爬取頁面的HTML程式碼了
右鍵執行，截圖如下
這裡寫圖片描述
但是，我們爬取到的程式碼是不能自行顯示中文的，需要解碼處理
py02v1.py檔案：https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py02v1.py

   # py02v1.py
   from urllib import request
  
   if __name__ == '__main__':
   
       url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
       rsp = request.urlopen(url)
       # 按住Ctrl鍵不送，同時點選urlopen，可以檢視文件，有函式的具體引數和使用方法

       html = rsp.read()
       # 解碼
       html = html.decode()

       print(html)

解碼後效果：
這裡寫圖片描述
恭喜你，最簡單的爬蟲就已經學會啦！
如果執行失敗，可能是
1.【爬取的連線失效】，更換最新的地址就可以了
2.【Python環境問題】，這裡不做仔細介紹，請自行【百度】解決，也可聯絡博主
QQ：1370911284
微信：18322295195

更多文章連結：Python 爬蟲隨筆

本筆記學習於圖靈學院python全棧課程
本筆記不允許任何個人和組織轉載

實用爬蟲-02-爬蟲真正使用代理 ip
2018-09-08
爬蟲
python爬蟲--urllib.error.URLError: ＜urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certi
2020-12-29
Python爬蟲ErrorAI
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
0.爬蟲 urlib庫講解 urlopen()與Request()
2019-04-09
爬蟲
Python爬蟲教程-33-scrapy shell 的使用
2018-09-06
Python爬蟲
python爬蟲實戰教程-Python爬蟲開發實戰教程（微課版）
2020-11-11
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)
2018-09-06
Python爬蟲CookieJAR
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)（下）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)（上）
2018-09-06
Python爬蟲Cookie
Python爬蟲教程-05-python爬蟲實現百度翻譯
2018-09-06
Python爬蟲
Python爬蟲之路-chrome在爬蟲中的使用
2021-01-04
Python爬蟲Chrome
Python爬蟲之路-selenium在爬蟲中的使用
2021-01-04
Python爬蟲
Python爬蟲教程-22-lxml-etree和xpath配合使用
2018-09-06
Python爬蟲XML
Python爬蟲教程-03-使用 chardet 檢測編碼
2018-09-06
Python爬蟲
爬蟲程式最佳化要點—附Python爬蟲影片教程
2020-10-15
爬蟲Python
Python爬蟲之Pyspider使用
2021-09-11
Python爬蟲IDE
Python爬蟲教程-26-Selenium + PhantomJS
2018-09-06
Python爬蟲JS
[譯] 30 分鐘 Python 爬蟲教程
2018-05-15
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
2019最新Python爬蟲教程+書籍分享
2019-01-06
Python爬蟲
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
Python爬蟲教程-20-xml 簡介
2018-09-06
Python爬蟲XML
Python爬蟲教程-04-response簡介
2018-09-06
Python爬蟲
Python爬蟲教程-09-error 模組
2018-09-06
Python爬蟲Error
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲教程-06-爬蟲實現百度翻譯(requests)
2018-09-06
Python爬蟲
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
python 爬蟲
2024-04-20
Python爬蟲
python爬蟲
2024-06-13
Python爬蟲

Python爬蟲教程-02-使用urlopen

Spider-02-使用urlopen

urllib

更多文章連結：Python 爬蟲隨筆

相關文章