三分鐘爬蟲入門

Laical發表於2020-05-18

原文網址 : https://learnku.com/articles/44683

爬蟲

想要採集資料，要明確要得到的內容是什麼？是HTML原始碼，還是Json格式的字串等。

抓取大多數情況屬於get請求，即直接從對方伺服器上獲取資料。

Python中自帶urllib及urllib2這兩個模組，基本上能滿足一般的頁面抓取。

urllib 是 Python 自帶的庫，可以用來進行網路資料的收集和下載。

from urllib import request

url=’time.geekbang.org/'

response=request.urlopen(url,timeout=1)

print(response.read().decode(‘utf-8’))

只需 4 行，就可以拿到極客時間的首頁網頁程式碼。當然，你會發現首頁網頁的程式碼只有一部分，這是因為極客時

間的大量資料都是通過 JS 請求後臺載入的。

1、get 方法傳送資料

此外，對於帶有查詢欄位的url，get請求一般會將來請求的資料附在url之後，以?分割url和傳輸資料，多個引數用&連線。

import requests data = {‘wd’:’nike’, ‘ie’:’utf-8’} url=’https://www.baidu.com' response = requests.get(url=url, params=data)

如下示例：

三分鐘爬蟲入門
2、post 方法傳送資料

預設的請求格式是 application/x-www-form-urlencoded

from urllib import request

from urllib import parse

data=bytes(parse.urlencode({‘word’:’hello wlzcool’}),encoding=’utf8’)

url=’httpbin.org/post'

response=request.urlopen(url,data=data)

print(response.read().decode(‘utf-8’))

如下示列：

{

“args”: {},

“data”: “”,

“files”: {},

“form”: {

“word”: “hello wlzcool”

“headers”: {

“Accept-Encoding”: “identity”,

“Content-Length”: “18”,

“Content-Type”: “application/x-www-form-urlencoded”,

“Host”: “httpbin.org”,

“User-Agent”: “Python-urllib/3.6”,

“X-Amzn-Trace-Id”: “Root=1-5e819df5-cc1d4ab38f5b4a59c23d09e9”

“json”: null,

“origin”: “”,

“url”: “http://httpbin.org/post"

}

修改 User-Agent

有些網站會檢查你是不是真的瀏覽器訪問，還是機器自動訪問的。這種情況，加上User-Agent，表明你是瀏覽器訪問即可。有時還會檢查是否帶Referer資訊還會檢查你的Referer是否合法，一般再加上Referer。

User-Agent可以用億牛雲提供給的真實庫，Referer的來源可以偽裝成百度搜尋來的。

headers = {‘User-Agent’:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.1276.73 Safari/537.36’, ‘Referer’:’https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=baidu&wd=nike'} response = requests.get(url=url, headers=headers)

如果想真正的做好一個爬蟲，需要自己努力學習python爬蟲知識，網路爬蟲有很多限制，需要自己去實踐研究，做好爬蟲程式的相關優化，累計經驗，才能採集到想要的資料。

本作品採用《CC 協議》，轉載必須註明作者和本文連結

爬蟲程式十分鐘入門
2021-09-09
爬蟲
爬蟲入門
2024-04-13
爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
python-爬蟲入門
2024-09-22
Python爬蟲
爬蟲（1） - 爬蟲基礎入門理論篇
2022-06-30
爬蟲
爬蟲入門(HTTP和HTTPS)
2018-12-09
爬蟲HTTP
爬蟲入門(字串相關)
2018-12-10
爬蟲字串
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲入門教程導航帖
2019-01-08
Python爬蟲
5 行程式碼就能入門爬蟲？
2019-01-11
行程爬蟲
Python3 爬蟲快速入門攻略
2018-12-07
Python爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
爬蟲工程師的入門簡介
2018-05-22
爬蟲工程師
爬蟲工程師的unidbg入門教程
2019-12-27
爬蟲工程師
爬蟲入門第一章
2020-10-18
爬蟲
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
python入門之爬蟲工具有哪些？
2021-09-11
Python爬蟲
爬蟲入門學習筆記3
2021-01-05
爬蟲筆記
04selenium爬蟲輕鬆入門
2024-12-08
爬蟲
[雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門
2018-09-10
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
三分鐘帶入門瞭解openstack的horizon專案
2020-11-08
Python 從入門到爬蟲極簡教程
2019-02-16
Python爬蟲
Python爬蟲怎麼入門-初級篇
2018-12-10
Python爬蟲

三分鐘爬蟲入門

相關文章