全棧 - 8 爬蟲使用 urllib2 獲取資料

張巨集倫發表於2017-02-06

這是全棧資料工程師養成攻略系列教程的第八期：8 爬蟲使用urllib2獲取資料。

我們知道，Http請求主要有GET和POST兩種。對於一個url，既可以使用瀏覽器去訪問，也可以使用程式碼去請求。

Urllib2

我們主要使用的是Python2.7中的urllib2，官方文件在這裡：docs.python.org/2/library/u…。如果閒官方文件太長太囉嗦，就跟著我一起操作吧～

GET請求

以 kaoshi.edu.sina.com.cn/college/sco… 為例，我們來實踐下，如何發起GET請求，主要程式碼如下，所返回的 result 中即包含了網頁的內容。

# 匯入需要的庫
import urllib2
import urllib

# 定義一個字串變數，儲存要訪問的連結
url = 'http://kaoshi.edu.sina.com.cn/college/scorelist?tab=batch&wl=1&local=2&batch=&syear=2013'
# 發起請求
request = urllib2.Request(url=url)
# 開啟連線
response = urllib2.urlopen(request, timeout=20)
# 讀取返回內容
result = response.read()複製程式碼

POST請求

以 shuju.wdzj.com/plat-info-t… 為例，我們來實踐下，如何發起POST請求，主要程式碼如下，所返回的 result 中即包含了請求的資料。

# 匯入需要的庫
import urllib2
import urllib

# 定義一個字串變數，儲存要訪問的連結
url = 'http://shuju.wdzj.com/plat-info-target.html'

# 將引數進行編碼，以字典形式組織引數
data = urllib.urlencode({
    'target1': 19, 
    'target2': 20, 
    'type': 1, 
    'wdzjPlatId': 59
    })
# 發起請求
request = urllib2.Request(url)
# 建立一個opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor())
# 開啟連線
response = opener.open(request, data)
# 讀取返回內容
result = response.read()複製程式碼

處理返回結果

url主要有Html和API兩類，前者以字串形式返回經渲染後的複雜頁面，後者同樣以字串形式返回json格式資料，因此我們需要對讀取的 result 採取不同的處理方法。

Html

當返回結果是Html頁面的文字內容時，需要藉助一些工具進行解析，將純文字轉為結構化的Html物件。最常用的工具是 BeautifulSoup，它也是一個Python中的一個包，提供瞭解析Html文字、查詢和選擇Html元素、提取元素內容和屬性等功能。考慮到BeautifulSoup的使用涉及到html和css等內容，我們先跳過這一塊，等後面介紹了相關基礎再回過頭來講解。

API

當返回結果是json格式的字串時，可以使用Python中的 json 模組，方便地將json字串載入為Python中的字典，再進行後續處理。

import json
# result是剛才讀取的返回結果，是一個json格式的字串
result = json.loads(result)
# result現在是一個字典了
print type(result)複製程式碼

視訊連結：使用urllib2獲取資料

如果覺得文章不錯，不妨點一下左下方的喜歡～

Scrapy爬蟲 - 獲取知乎使用者資料
2016-05-20
爬蟲
全棧 - 9 實戰爬取豆瓣電影資料
2017-03-03
全棧
從零開始學爬蟲（3）：通過MongoDB資料庫獲取爬蟲資料
2017-02-23
爬蟲MongoDB資料庫
兩人因使用爬蟲非法爬取、使用淘寶11.8億使用者資料獲罪
2021-06-17
爬蟲
全棧 – 7 爬蟲 Http請求和Chrome
2019-02-10
全棧爬蟲HTTPChrome
API商品資料介面呼叫實戰：爬蟲與資料獲取
2023-10-29
API爬蟲
Python爬蟲精簡步驟1 獲取資料
2020-02-17
Python爬蟲
爬蟲：拉勾自動投遞簡歷+資料獲取
2020-10-21
爬蟲
python爬蟲獲取天氣網實時資料
2022-11-29
Python爬蟲
網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
如何高效獲取大資料?動態ip代理：用爬蟲!
2019-01-24
大資料爬蟲
爬蟲實踐之獲取網易雲評論資料資訊
2022-03-29
爬蟲
爬蟲實戰：從HTTP請求獲取資料解析社群
2024-03-20
爬蟲HTTP
urllib2實現簡單爬蟲
2014-06-16
爬蟲
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
利用Python爬蟲爬取天氣資料
2018-02-06
Python爬蟲
為爬蟲獲取登入cookies：使用browsercookie從瀏覽器獲取cookies
2018-12-03
爬蟲Cookie瀏覽器
為爬蟲獲取登入cookies：charles工具的使用
2018-12-03
爬蟲Cookie
【php爬蟲】百萬級別知乎使用者資料爬取與分析
2015-09-30
PHP爬蟲
PHP爬蟲：百萬級別知乎使用者資料爬取與分析
2016-01-21
PHP爬蟲
爬蟲小程式 - 爬取王者榮耀全皮膚
2020-01-31
爬蟲
3、爬蟲-selenium-獲取使用者cookie的使用
2024-07-01
爬蟲Cookie
Golang 爬蟲快速入門 | 獲取 B 站全站的視訊資料
2020-04-14
Golang爬蟲
python爬蟲如何獲取表情包
2021-09-11
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
Golang爬蟲，Go&&正則爬取資料，槓桿的
2022-01-13
Golang爬蟲
爬蟲-使用lxml解析html資料
2021-01-20
爬蟲XMLHTML
Flutter 全棧開發體驗——爬蟲與服務端
2019-06-15
Flutter全棧爬蟲服務端
網路爬蟲（五）：urllib2的使用細節與抓站技巧
2014-09-17
爬蟲
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
新手小白的爬蟲神器-無程式碼高效爬取資料
2021-01-01
爬蟲
爬取資料時防止爬蟲被限制的四種方法
2022-06-07
爬蟲
實時獲取股票資料，免費！——Python爬蟲Sina Stock實戰
2021-10-13
Python爬蟲

全棧 - 8 爬蟲 使用 urllib2 獲取資料