python3使用requests包抓取並儲存網頁原始碼

Pop_Rain發表於2017-05-16

原文網址 : https://blog.csdn.net/pop_rain/article/details/72295176

轉載自：http://blog.csdn.net/w93223010/article/details/18968081

近期的工作學習中使用到了Python，分享一些初學者的心得與君共勉。

本節的內容主要是如何使用python去獲取網頁的原始碼並儲存到本地檔案中，希望通過本節可以讓你略微瞭解到python的神奇。

先上程式碼：

import urllib.request  
def getPage(url):     
    request = urllib.request.Request(url)  
    response = urllib.request.urlopen(request)  
    return response.read().decode("utf-8") 
      
url='http://www.kntpb.com/'  
result=getPage(url)  
print (result)

第1行匯入了必要的包

第2至6\5行定義了一個函式，目的是向指定url傳送http請求，並將網頁的原始碼返回

最後把獲得的原始碼進行展示

在命令列執行程式碼的話，可以看到類似圖1-1的一堆html程式碼，即為成功。

圖1-1

可以用瀏覽器訪問一下程式碼中的url，可以看到類似圖1-2的ebay的網站。（為了逃避中文字元的處理，所以選擇了英文的網站）

圖1-2

而在瀏覽的網頁的空白處單擊右鍵，選擇“檢視網頁原始碼”，可以看到類似圖1-3的的html原始碼，實際上與圖1-1中是一樣的。

圖1-3

修改一下程式碼，將獲取的html原始碼寫入本地的檔案。

[python]view
 plain copy

import urllib  

import urllib2  

def getPage(url):     

    request = urllib2.Request(url)  

    response = urllib2.urlopen(request)  

    return response.read()  

url='http://www.ebay.com/sch/TShirts-/15687/i.html?Style=Basic%2520Tee&_dcat=15687&Color=Black&_pgn=1'  

result=getPage(url)  

txt='D:\\result.html'  

f = open(txt,"w+")  

f.write(result)

第10至12行進行了檔案操作，在D盤建立了result.html檔案並將result變數中的內容寫入其中。

作為一個購物網站，大部分型別的商品都是分很多頁的，接下來繼續修改程式碼，讓它能夠取出前5頁的內容，分別寫入5個檔案中。

[python]view
 plain copy

import urllib  

import urllib2  

def getPage(url):     

    request = urllib2.Request(url)  

    response = urllib2.urlopen(request)  

    return response.read()  

url='http://www.ebay.com/sch/TShirts-/15687/i.html?Style=Basic%2520Tee&_dcat=15687&Color=Black'  

p=0  

while p<5:  

    print ' =='+str(p+1)+'==start=='  

    result=getPage(url+'&_pgn='+str(p+1))  

    txt='D:\\result'+str(p+1)+'.html'  

    f = open(txt,"w+")  

    f.write(result)  

    print ' =='+str(p+1)+'====end=='  

    p=p+1  

f.close()

第8行修改了url字串的結尾部分，刪除了“&_pgn=1”，並將其作為後面迴圈的引數

第10至17行做了一個0至4的迴圈（當然你也可以設定成1到5），其中第11行和16行僅是跟蹤程式碼，用以顯示當前讀到的頁數。第12行的實參將迴圈變數p組合進去，達到獲取不同頁html原始碼的作用。

第18行結束檔案操作，關閉所用資源。

程式在命令列執行後，最後一行顯示“==5====end==”，並在D盤生成如圖1-4的，檔案大小近似的5個html檔案即為成功。

圖1-4

==========================================以下是之前的筆記=====================================

這篇文章主要介紹了Python3使用requests包抓取並儲存網頁原始碼的方法,例項分析了Python3環境下requests模組的相關使用技巧,需要的朋友可以參考下

本文例項講述了Python3使用requests包抓取並儲存網頁原始碼的方法。分享給大家供大家參考，具體如下：

使用Python 3的requests模組抓取網頁原始碼並儲存到檔案示例：

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

這是一個基本的檔案儲存操作，但這裡有幾個值得注意的問題：

1.安裝requests包，命令列輸入pip install requests即可自動安裝。很多人推薦使用requests，自帶的urllib.request也可以抓取網頁原始碼

2.open方法encoding引數設為utf-8，否則儲存的檔案會出現亂碼。

3.如果直接在cmd中輸出抓取的內容，會提示各種編碼錯誤，所以儲存到檔案檢視。

4.with open方法是更好的寫法，可以自動操作完畢後釋放資源。

另一個例子：

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

這是演示讀取一個txt檔案，每次讀取一行，並儲存到另一個txt檔案中的示例。

因為在命令列中列印每次讀取一行的資料，中文會出現編碼錯誤，所以每次讀取一行並儲存到另一個檔案，這樣來測試讀取是否正常。（注意open的時候制定encoding編碼方式）

轉自：小談部落格 http://www.tantengvip.com/2015/05/requests-html/

怎麼更改網頁上的內容並儲存
2024-10-07
網頁
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
抓取照片儲存桌面
2020-12-27
Python2、3並存，Python3無法安裝requests模組
2020-09-28
Python
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
使用代理抓取網頁的原因
2021-09-11
網頁
【Python】Python抓取分享頁面的原始碼示例
2019-06-27
Python原始碼
Hellohao全網物件儲存圖床原始碼
2021-10-03
物件圖床原始碼
使用beautifulsoup和re抓取鏈家資料基礎並儲存為csv檔案
2021-01-02
python入門012～使用requests爬取網路圖片並儲存到本地
2021-09-09
Python
網頁長按儲存及識別二維碼
2022-07-13
網頁
透過Requests模組獲取網頁內容並使用BeautifulSoup進行解析
2024-03-26
網頁
使用 Beautiful Soup 在 Python 中抓取網頁
2021-12-27
Python網頁
Laravel 儲存 (Storage) 原始碼分析
2019-08-14
Laravel原始碼
（詳細）python爬取網頁資訊並儲存為CSV檔案（後面完整程式碼！！！）
2020-10-29
Python網頁
使用canvas儲存網頁為pdf檔案支援跨域
2018-11-22
Canvas網頁跨域
[實戰演練]python3使用requests模組爬取頁面內容
2021-09-09
Python
例項：使用puppeteer headless方式抓取JS網頁
2018-05-08
JS網頁
如何將網頁儲存成mhtml格式
2018-12-21
網頁HTML
Appdash原始碼閱讀——Store儲存
2018-07-07
APP原始碼
win10瀏覽器如何儲存網頁_win10瀏覽器怎麼儲存網頁
2020-08-06
Win10瀏覽器網頁
Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
儲存並退出 crontab
2019-08-15
容器雲對接持久化儲存並使用
2022-08-23
持久化
【Python3網路爬蟲開發實戰】5-資料儲存-1 檔案儲存-1 TXT文字儲存
2018-03-21
Python爬蟲
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
Spark 儲存模組原始碼學習
2020-03-22
Spark原始碼
【Python3網路爬蟲開發實戰】5-資料儲存-1 檔案儲存-2 JSON檔案儲存
2018-03-21
Python爬蟲JSON
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
段頁式儲存
2024-03-20
網頁資料抓取之噹噹網
2020-12-21
網頁
python3中編碼如何獲取網頁?
2021-09-11
Python網頁
OceanBase 原始碼解讀（九）：儲存層程式碼解讀之「巨集塊儲存格式」
2022-03-25
原始碼
requests.get()爬去中文網頁亂碼解決方法
2019-02-01
網頁
批量抓取網頁pdf檔案
2019-02-16
網頁
網頁地址編碼解碼（網頁地址明文密文轉換）url編碼解碼 Python3
2018-08-27
網頁Python
app直播原始碼，uniapp點選按鈕儲存頁面為圖片到本地
2023-04-11
APP原始碼
微信長按網頁儲存為截圖
2018-04-27
網頁

python3使用requests包抓取並儲存網頁原始碼

相關文章