Python爬蟲初學二(網路資料採集)
目錄
七.專案案例二:百度/360搜尋關鍵字提交百度/360搜尋關鍵字提交
一、網路資料採集
1.什麼是網路資料採集
“網路資料採集”是指利用網際網路搜尋引擎技術實現有針對性、行業性、精準性的資料抓取,並按照一定規則和篩選標準進行資料歸類,並形成資料庫檔案的一個過程。
2.網路資料採集的特點
- 支援自定義表單。
- 支援自適應採集。
- 支援叢集採集。
- 支援各種報表匯出。
- 支援仿人工式的隨機採集資料。
- 支援自定義閱讀模板。
- 支援登陸、代理採集。
- 支援各種列表分頁採集。
- 支援各種內容分頁採集。
- 支援各種排重過濾。
- 各種採集日誌和採集源日誌監控。
- 支援採集網站、採集源管理。
- 支援採集圖片、附件、音訊,視訊等檔案或附件。附件與正文自動對映與關聯。
- 支援多種附件儲存方式,可儲存至磁碟或資料庫。
- 支援附件的壓縮儲存。
- 支援對採集來的資訊進行二次加工。支援採集內容的自動排版。
- 真正的多使用者採集系統,每個操作都要記錄操作內容、操作人以及操作時間。
- 真正的多線層、多工採集、叢集採集。
- 圖形監控網路使用情況、採集情況等。
- 支援海量資料採集。
- 軟體實用、易用、功能強大。
- 可移植、可擴充套件、可定製。
Python 給人的印象是抓取網頁非常方便,提供這種生產力的,主要依靠的就是 urllib、requests這兩個模組。
這裡重點介紹requests模組。
二、網路資料採集之urllib庫
官方文件地址:https://docs.python.org/3/library/urllib.html
urllib庫是python的內建HTTP請求庫,包含以下各個模組內容:
(1)urllib.request:請求模組
(2)urllib.error:異常處理模組
(3)urllib.parse:解析模組
(4)urllib.robotparser:robots.txt解析模組
urlopen進行簡單的網站請求,不支援複雜功能如驗證、cookie和其他HTTP高階功能,若要支援這些功能必須使用build_opener()函式返回的OpenerDirector物件。
很多網站為了防止程式爬蟲爬網站照成網站癱瘓,會需要攜帶一些headers頭部資訊才能訪問, 我們可以通過urllib.request.Request物件指定請求頭部資訊.
from urllib.request import urlopen, Request
# 方法一: 通過get方法請求url
with urlopen('http://www.python.org/') as f:
# 預設返回的頁面資訊是bytes型別, bytes型別轉換成字串,decode方法。
print(f.read(300).decode('utf-8'))
# 方法二: Request物件發起請求
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:74.0) Gecko/20100101 Firefox/74.0'
# 封裝請求頭部資訊, 模擬瀏覽器向伺服器發起請求
request = Request('http://www.python.org/', headers={'User-Agent': user_agent})
with urlopen(request) as f:
# 預設返回的頁面資訊是bytes型別, bytes型別轉換成字串,decode方法。
print(f.read(300).decode('utf-8'))
執行結果如下:
三、網路資料採集之requests庫
1.requests安裝
requests官方網址: https://requests.readthedocs.io/en/master/
安裝:
pip install -i http://pypi.douban.com/simple requests
2.request方法彙總
方法 | 說明 |
requests.request() | 構造一個請求,支撐以下各方法的基礎方法 |
requests.get() | 獲取HTML網頁的主要方法,對應於HTTP的GET |
requests.head() | 獲取HTML網頁頭資訊的方法 |
requests.post() | 向HTML網頁提交POST請求的方法,對應於HTTP的POST |
requests.put() | 向HTML網頁提交PUT請求的方法,對應於HTTP的PUT |
requests.patch() | 向HTML網頁提交區域性修改請求,對應於HTTP的PATCH |
requests.delete() | 向HTML頁面提交刪除請求,對應於HTTP的DELETE |
3.response物件彙總
from urllib.error import HTTPError
import requests
def get():
# get方法可以獲取頁面資料,也可以提交非敏感資料
# url = 'http://127.0.0.1:5000/'
# url = 'http://127.0.0.1:5000/?username=fentiao&page=1&per_page=5'
url = 'http://127.0.0.1:5000/'
try:
params = {
'username': 'lucky',
'page': 1,
'per_page': 5
}
response = requests.get(url, params=params)
print(response.text, response.url)
# print(response)
# print(response.status_code)
# print(response.text)
# print(response.content)
# print(response.encoding)
except HTTPError as e:
print("爬蟲爬取%s失敗: %s" % (url, e.reason))
def post():
url = 'http://127.0.0.1:5000/post'
try:
data = {
'username': 'admin',
'password': 'westos12'
}
response = requests.post(url, data=data)
print(response.text)
except HTTPError as e:
print("爬蟲爬取%s失敗: %s" % (url, e.reason))
if __name__ == '__main__':
get()
# post()
4.response物件
Response物件包含伺服器返回的所有資訊,也包含請求的Request資訊。
屬性 | 說明 |
r.status_code | HTTP請求的返回狀態,200表示連線成功,404失敗 |
r.text | HTTP響應內容的字串形式,URL對應的頁面內容 |
r.content | HTTP響應內容的二進位制形式 |
r.encoding | 從HTTP header中猜測的響應內容編碼方式 |
r.apparent_encoding | 從內容中分析出的響應的編碼方式(備選編碼方式) |
四.高階應用一:新增headers
有些網站訪問時必須帶有瀏覽器等資訊,如果不傳入headers就會報錯
headers = {'User=Agent':useragent}
response = requests.get(url, headers = heders)
UserAgent是識別瀏覽器的一串字串,相當於瀏覽器的身份證,在利用爬蟲爬取網站資料時,頻繁更換UserAgent可以避免觸發相應的反爬機制。
fake-useragent對頻繁更換UserAgent提供了很好的支援,可謂防反扒利器。
# 使用者代理
import requests
from fake_useragent import UserAgent
def add_headers():
"""
封裝一個請求頭部,獲取頁面的時候加進去,get,post都可以
不同的瀏覽器 請求頭部不同
"""
#谷歌瀏覽器的請求頭部 拷貝過來
# headers= {'user_Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36'}
# 預設情況下python爬蟲的使用者代理是:客戶端請求的user_agent: python-requests/2.22.0
ua = UserAgent() # 從網路獲取所有的使用者代理
# print(ua.random) #可以隨機拿出一個使用者代理
headers = {'user_Agent': ua.random}
response = requests.get('http://127.0.0.1:5000', headers=headers)
print(response)
if __name__ == '__main__':
add_headers()
五.高階應用二:IP代理設定
在進行爬蟲爬取時,有時候爬蟲會被伺服器給遮蔽掉,這時採用的方法主要有降低訪問時間,通過代理IP訪問。ip可以從網上抓取,或者某寶購買。
proxies = { "http": "http://127.0.0.1:9743", "https": "https://127.0.0.1:9743",}
response = requests.get(url, proxies=proxies)
# IP代理
import requests
from fake_useragent import UserAgent
ua = UserAgent()
# 代理IP
proxies = {
'http':'http://222.95.144.65:3000',
'https':'https://182.92.220.212:8080'
}
response = requests.get('http://47.92.255.98:8000',
headers = {'User-Agent':ua.random},
proxies = proxies)
print(response)
# 這是因為伺服器端會返回資料:get提交的資料和請求的客戶端ip
#如何判斷是否成功:返回的客戶端IP剛好是代理IP
print(response.text)
六.專案案例一:京東商品的爬取
from urllib.error import HTTPError
import requests
from colorama import Fore
from fake_useragent import UserAgent
def download_page(url, parmas=None):
try:
ua = UserAgent()
headers = {'User-Agent': ua.random}
response = requests.get(url, params=parmas, headers=headers)
except HTTPError as e:
print(Fore.RED + '[-] 爬取網站%s失敗: %s' % (url, e.reason))
return None
else:
# content返回的是bytes型別
return response.content
def download_file(content=b'', filename='hello.html'):
"""
:param content: 要寫入本地的html字元bytes型別
:param filename: 寫入本地的檔名
:return:
"""
with open(filename, 'wb') as f:
f.write(content)
print(Fore.GREEN + '[+]寫入檔案%s成功' % (filename))
if __name__ == '__main__':
# url = 'https://item.jd.com/100012015170.html'
# html = download_page(url)
# download_file(content=html)
url = 'https://www.so.com/s'
params = {
'q': 'python'
}
content = download_page(url, params)
download_file(content)
測試結果:
七.專案案例二:百度/360搜尋關鍵字提交百度/360搜尋關鍵字提交
百度的關鍵詞介面:https://www.baidu.com/baidu?wd=xxx&tn=monline_4_dg
360的關鍵詞介面:http://www.so.com/s?q=keyword
from urllib.error import HTTPError
from colorama import Fore
import requests
from fake_useragent import UserAgent
def download_page(url, params=None):
try:
ua = UserAgent()
headers = {'User-Agent': ua.random}
response = requests.get(url, params=params, headers = headers)
except HTTPError as e:
print(Fore.RED + '[-] 爬取網站失敗:%s' %(url, e.reason) )
return None
else:
return response.content #content 返回的是bytes型別
def download_file(content = b'' ,filename='craw.html'):
"""
:param filename: 寫入本地的檔名
:param content: 要寫入本地的html字串 bytes型別
:return:
"""
with open(filename, 'wb') as f:
f.write(content)
print(Fore.GREEN+'[+] 寫入檔案%s成功' %(filename))
if __name__ == '__main__':
url = 'https://www.so.com/s'
params = {
'q':'python'
}
content = download_page(url,params)
download_file(content)
測試結果:
相關文章
- Python網路爬蟲資料採集實戰:Requests和Re庫Python爬蟲
- 網站如何判斷爬蟲在採集資料?網站爬蟲
- 爬蟲資料採集的工作原理爬蟲
- 【Python學習筆記1】Python網路爬蟲初體驗Python筆記爬蟲
- python爬蟲 之 scrapy框架採集2000期彩票資料Python爬蟲框架
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- 【python爬蟲實戰】使用Selenium webdriver採集山東招考資料Python爬蟲Web
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- 【從零開始學爬蟲】採集收視率排行資料爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲
- python網路爬蟲(7)爬取靜態資料詳解Python爬蟲
- Python無框架分散式爬蟲採集拼多多商品詳情資料Python框架分散式爬蟲
- python例項,python網路爬蟲爬取大學排名!Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 資料採集爬蟲ip代理基本原理爬蟲
- python DHT網路爬蟲Python爬蟲
- 【從零開始學爬蟲】採集全國高校導師資料爬蟲
- IPIDEA分析資料採集新趨勢,Python爬蟲的應用前景如何?IdeaPython爬蟲
- 頁面資料採集——網路爬蟲實戰(ASP.NET Web 部落格園為例)爬蟲ASP.NETWeb
- 網路爬蟲大型教程(二)爬蟲
- 【Python爬蟲】正則爬取趕集網Python爬蟲
- 【從零開始學爬蟲】採集全國曆史天氣資料爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- python網路爬蟲合法嗎Python爬蟲
- Python網路爬蟲實戰Python爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 《從零開始學Python網路爬蟲》概要Python爬蟲
- Python爬蟲實戰系列4:天眼查公司工商資訊採集Python爬蟲
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- Python《爬蟲初實踐》Python爬蟲
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- 【從零開始學爬蟲】採集丁香醫生新冠問答資料爬蟲
- 如何提高爬取爬蟲採集的效率?爬蟲
- 一篇文章教會你利用Python網路爬蟲實現豆瓣電影採集Python爬蟲
- python爬蟲js逆向學習(二)Python爬蟲JS
- python爬蟲學習筆記(二)Python爬蟲筆記