Python爬蟲教程-02-使用urlopen
Spider-02-使用urlopen
做一個最簡單的python爬蟲,使用爬蟲爬取:智聯招聘某招聘資訊的DOM
urllib
- 包含模組
- urllib.request:開啟和讀取urls
- urllib.error:包含urllib.request產生的常見錯誤,使用try捕捉
- urllib.parse:包含解析url的方法
- urllib.robotparse:解析robots.txt檔案
robots:機器人協議,放在網站的開頭,供給爬蟲讀取,當爬蟲讀到robots之後,就知道那些是允許爬取的資料,哪些是禁止爬取的資料
(爬蟲道德問題:1.不許過頻繁爬取 2.不許爬取禁止內容)
案例v1
- 使用PyCharm開發工具,配置python直譯器,建立python檔案)
- 我把程式碼放在github了,可以直接下載,地址:
- py01v1.py檔案:
https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py01v1.py - request.py文件檔案:
https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/request.py
# py01v1.py
from urllib import request
# 使用urllib.request請求一個網頁的內容,並把內容列印出來
if __name__ == '__main__':
# 定義需要爬的頁面
url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
# 開啟相應url並把頁面作為返回
rsp = request.urlopen(url)
# 按住Ctrl鍵不送,同時點選urlopen,可以檢視文件,有函式的具體引數和使用方法
# 把返回結果讀取出來
html = rsp.read()
print(html)
上面簡單幾行程式碼就可以爬取頁面的HTML程式碼了
右鍵執行,截圖如下
但是,我們爬取到的程式碼是不能自行顯示中文的,需要解碼處理
py02v1.py檔案:
https://xpwi.github.io/py/py%E7%88%AC%E8%99%AB/py02v1.py
# py02v1.py
from urllib import request
if __name__ == '__main__':
url = "https://jobs.zhaopin.com/CC375882789J00033399409.htm"
rsp = request.urlopen(url)
# 按住Ctrl鍵不送,同時點選urlopen,可以檢視文件,有函式的具體引數和使用方法
html = rsp.read()
# 解碼
html = html.decode()
print(html)
解碼後效果:
恭喜你,最簡單的爬蟲就已經學會啦!
如果執行失敗,可能是
1.【爬取的連線失效】,更換最新的地址就可以了
2.【Python環境問題】,這裡不做仔細介紹,請自行【百度】解決,也可聯絡博主
QQ:1370911284
微信:18322295195
更多文章連結:Python 爬蟲隨筆
- 本筆記學習於圖靈學院python全棧課程
- 本筆記不允許任何個人和組織轉載
相關文章
- 實用爬蟲-02-爬蟲真正使用代理 ip爬蟲
- Python爬蟲教程-01-爬蟲介紹Python爬蟲
- 0.爬蟲 urlib庫講解 urlopen()與Request()爬蟲
- python爬蟲--urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certiPython爬蟲ErrorAI
- Python爬蟲教程-33-scrapy shell 的使用Python爬蟲
- Python爬蟲教程-34-分散式爬蟲介紹Python爬蟲分散式
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- 《Python3網路爬蟲開發實戰》教程||爬蟲教程Python爬蟲
- python爬蟲實戰教程-Python爬蟲開發實戰教程(微課版)Python爬蟲
- Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)Python爬蟲CookieJAR
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- Python爬蟲教程+書籍分享Python爬蟲
- Python爬蟲學習系列教程Python爬蟲
- Python爬蟲教程-13-爬蟲使用cookie爬取登入後的頁面(人人網)(下)Python爬蟲Cookie
- Python爬蟲教程-12-爬蟲使用cookie爬取登入後的頁面(人人網)(上)Python爬蟲Cookie
- Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作Python爬蟲
- Python爬蟲之路-chrome在爬蟲中的使用Python爬蟲Chrome
- 【python爬蟲】python爬蟲demoPython爬蟲
- 爬蟲程式最佳化要點—附Python爬蟲影片教程爬蟲Python
- Python爬蟲教程-05-python爬蟲實現百度翻譯Python爬蟲
- Python爬蟲教程-22-lxml-etree和xpath配合使用Python爬蟲XML
- Python爬蟲教程-03-使用 chardet 檢測編碼Python爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- Python爬蟲之路-selenium在爬蟲中的使用Python爬蟲
- Python爬蟲教程-09-error 模組Python爬蟲Error
- [譯] 30 分鐘 Python 爬蟲教程Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Python爬蟲教程-06-爬蟲實現百度翻譯(requests)Python爬蟲
- Python爬蟲新手教程: 知乎文章圖片爬取器Python爬蟲
- Python爬蟲教程-21-xpath 簡介Python爬蟲
- Python爬蟲教程-20-xml 簡介Python爬蟲XML
- Python爬蟲教程-04-response簡介Python爬蟲
- Python爬蟲入門教程導航帖Python爬蟲
- Python爬蟲之Pyspider使用Python爬蟲IDE
- python就是爬蟲嗎-python就是爬蟲嗎Python爬蟲
- python爬蟲Python爬蟲