python批量下載馬拉松照片

suyubo發表於2018-12-04

原文網址 : https://juejin.im/post/5c065bbc6fb9a049c30b02b8

原始碼地址： github.com/halibobo/ru…

文章地址： https://dahei.me

前言

目前學習python幾個月了，由於自己比較喜歡跑馬拉松，已經跑過了很多場比賽，前些天就寫了個簡單的爬蟲爬取了網上三千多場馬拉松比賽的報名資訊。今年5月27日，我又參加了巴圖魯關門山壹佰越野50公里組的比賽，這裡的“巴圖魯”源自蒙古語“英雄”的意思，這場比賽也是出了名的虐，地點在遼寧省本溪市 · 關門山國家森林公園，累計爬升3655m。當天早上六點準時出發，剛跑沒多久就來了很長一段陡峭的臺階......此處省略一萬字......最終經過很多小時的艱苦奮戰完成了比賽。

賽後去官網想找幾張好看的圖片發朋友圈，開啟官網賽事圖片連結到了愛運動的一個網頁runnerbar.com/yd_runnerba…，這是個單頁面的網頁，不斷滾動會自動載入更多的圖片，我把頁面一點點滾動找了很長一段時間根本找不到我的照片，重新整理一下頁面照片又從頭開始了，實在不能忍。於是，我想要不把圖片全部下載到本地檢視吧，想幹就幹。

1. 分析

1.1 Chrome除錯

在chrome瀏覽器裡輸入快捷鍵Cmd + Opt + I（Windows上是F12,或Ctrl + Shift + I），將除錯選項切到Network，如下

一個個觀察此網頁傳送的請求，找到和圖片相關的請求

這是一個get請求，初步分析裡面的引數，activity_id代表賽事id，page和pageSize分別代表頁數和每頁大小，接著將請求放在postman上印證

1.2請求分析

在postman里加了三個引數成功返回了一個json格式的值，第一階段很順利，接著分析裡面的返回值，下面取了其中的一個元素

{
"album": {
    "activity_photo_count": 6984,
    "searchResultList": [
        {
            "id": "32926651",
            "uid": 50392,
            "name": "巴圖魯關東越野",
            "user_name": null,
            "user_img": "http://oss.runnerbar.com/img/user_upload/origin/20180526/1527305285356_fb59065d_18ce_478b_a3aa_259783f4cd5b.jpg",
            "create_time": 1527313780000,
            "image_height": 3648,
            "image_width": 5472,
            "orientation": 1,
            "url_hq": "http://oss.runnerbar.com/img/watermark/user_upload/origin/20180526/1527313783392_235c5cea_5d0c_4cd7_afc6_0ba37cdc7c1d.jpg?quality=h",
            "url_lq": "http://oss.runnerbar.com/img/watermark/user_upload/origin/20180526/1527313783867_7d986351_fde4_418a_8fb3_1723dcb38aec.jpg",
            "content": null,
            "is_like": 0,
            "like_count": null,
            "comment_count": 0
        }}
複製程式碼

這是個json格式，最外層裡有個album元素，album裡包含了圖片總數量activity_photo_count和圖片資訊的陣列searchResultList。每張圖片包含了id、uid、user_img、create_time等等，和圖片路徑相關的有三個值分別是user_img、url_hq、url_lq，其中的user_img開啟後發現是賽事的宣傳logo，剩下的url_hq、url_lq根據命名就很容易猜想到這是對應的兩種尺寸的圖片，用瀏覽器分別開啟，果不其然正是想要的圖片路徑。

2.程式碼

2.1

上面已經知道了請求url和引數，下面就是需要將這些用程式碼實現出來。首先是發請求

url='http://m.yundong.runnerbar.com/yd_mobile/share/album.json'
para = {'activity_id':id,'page':page,'pageSize':100}
header = {}
r = requests.post(url,data=para,headers= header)
複製程式碼

請求的返回值是json，json內容在上面已經貼出來了這裡就不再重複，接著解析這個json

json_r = r.json()
parsed_json = json_r['album']['searchResultList']
activity = {}
items = []
count = json_r['album']['activity_photo_count']
複製程式碼

這裡就取到了圖片總數量和圖片資訊的陣列，這個請求引數是page和pageSize，一個請求只能取到一部分圖片資訊並不能把所有的圖片都取出來。那能不能把所有圖片分成一頁返回呢？於是在postman上做了實驗，將page=1，pageSize=10000傳送，結果並不是想要的，真正返回的圖片數量是100。說明這個介面做了校驗，每個分頁最大數量是100。看來投機取巧是不行了，分頁還是要做的。首先將單個請求封裝成方法，傳入page返回對應page的圖片資訊陣列

def getRaceInfo(id,page):
    url='http://m.yundong.runnerbar.com/yd_mobile/share/album.json'
    para = {'activity_id':id,'page':page,'pageSize':100}
    header = {}
    r = requests.post(url,data=para,headers= header)
    json_r = r.json()
    parsed_json = json_r['album']['searchResultList']
    activity = {}
    items = []
    count = json_r['album']['activity_photo_count']
    for item in parsed_json:
        # print(item['user_img'])
        items.append(item)
    activity['items'] = items
    activity['count'] = count
return activity
複製程式碼

圖片的做數量是count，每頁分100張圖片，起點是第1頁，那麼總的分頁數量就是count/100+2，分頁的程式碼就應該是這樣的

for i in range(1,int(count/100+2)):
    data = getRaceInfo(id,i)['items']
複製程式碼

這裡只是貼了一小段程式碼，完整程式碼可以參見上面的github地址

2.2 下載

有了圖片在url，下載圖片就更簡單了，直接上程式碼

def save_img(img_url,file_name,file_path='book'):
#儲存圖片到磁碟資料夾 file_path中，預設為當前指令碼執行目錄下的 book\img資料夾
try:
    if not os.path.exists(file_path):
        print('資料夾',file_path,'不存在，重新建立')
        #os.mkdir(file_path)
        os.makedirs(file_path)
    #獲得圖片字尾
    file_suffix = os.path.splitext(img_url)[1]
    #拼接圖片名（包含路徑）
    filename = '{}{}{}{}'.format(file_path,os.sep,file_name,file_suffix)
   #下載圖片，並儲存到資料夾中
    urllib.request.urlretrieve(img_url,filename=filename)
except IOError as e:
    print('檔案操作失敗',e)
except HTTPError as e:
    print('Error code: ', e.code)
except Exception as e:
    print('錯誤 ：',e)
複製程式碼

執行python，檢視本地檔案幾千張圖片很快下載到了本地

這時又有了新的想法，既然可以下載關門山越野的圖片，是不是可以把愛運動裡所有的圖片都下載下來，說幹就幹。於是我將賽事id定義成引數，寫個方法遍歷id。改動了幾行從新執行，幾個小時後程式還在執行但是圖片佔用的大小已經超過了7G，

開啟檔案裡面包含了各個賽事的圖片，眼看圖片越來越多加上我的mac儲存空間有限最終停止了下載，但是這個思路應該是可行的。

原始碼地址： github.com/halibobo/ru…

最後

整個過程從開始到結束都在一天內完成的，程式碼裡也沒有什麼複雜的邏輯，但完成之後心裡還是有很多的滿足感。

最後貼上一句我很喜歡的賽事宣傳語

	和一群志同道合的人，一起奔跑在理想的路上，
	回頭有一路的故事，低頭有堅定的腳步，抬頭有清晰的遠方。
	                                —— 致巴圖魯er
複製程式碼

黑客+馬拉松=? 黑客馬拉松?
2022-03-01
黑客
中國移動：2020年創客馬拉松白皮書（附下載）
2021-08-13
黑客馬拉松之外的雜感
2018-04-23
黑客
記第一次馬拉松～
2018-04-08
48小時區塊鏈黑客馬拉松（成都）
2018-09-01
區塊鏈黑客
駭客馬拉松 10 個最佳專案創意
2024-03-06
關於宜家這次舉辦的黑客馬拉松
2018-04-16
黑客
金山雲財報：盈利依舊是場馬拉松
2020-11-24
喜馬拉雅批次下載工具附使用教程
2020-12-11
西安財經大學校園“迷你馬拉松”值得期待！
2020-12-02
java程式與設計大作業-馬拉松管理系統
2020-12-20
Java
POCO相簿的照片批量採集下載的簡單方法有嗎？
2021-11-17
如何用 Python 指令碼批量下載 Google 影象？
2018-07-13
Python指令碼Go
bilibili動畫下載視訊批量改名（python）
2021-11-29
動畫Python
馬拉松式學習與技術人員的成長性
2019-02-25
2021飛槳黑客馬拉松完美收官，期待下期與你相遇
2022-01-18
黑客
70 行 python 程式碼實現桌布批量下載
2019-01-30
Python
qq相簿批量下載
2019-02-23
批量照片水印新增工具
2021-11-15
聚焦區塊鏈應用，SegmentFault 黑客馬拉松引爆珠三角
2018-06-26
區塊鏈黑客
你在跑馬拉松，人工智慧和大資料也在跑
2019-04-22
人工智慧大資料
第二彈！python爬蟲批量下載高清大圖
2019-10-06
Python爬蟲
批量下載SRR資料
2020-06-17
2019 MiiX 區塊鏈全球黑客馬拉松超級大賽（北京站）
2019-01-19
區塊鏈黑客
用程式碼挑戰未知，2019WAIC黑客馬拉松火熱開賽
2019-08-29
AI黑客
小米駭客馬拉松落幕，大模型「智慧頭盔」獲一等獎
2024-07-09
大模型
東奧賽場之外，駭客馬拉松歷經48小時鏖戰
2021-07-30
技術團隊：研發中的短跑衝刺和馬拉松遊戲
2023-03-10
遊戲
用程式碼挑戰未知，2019WAIC駭客馬拉松火熱開賽
2019-08-29
AI
就要技術範！2019TechWorld技術嘉年華•黑客馬拉松完美落幕
2019-07-28
黑客
AWS 人工智慧黑客馬拉松正式開啟！用實力演繹科技向善！
2020-07-28
人工智慧黑客
從跑步小白到馬拉松、再到百公里越野跑的晉級之路
2018-04-12
商湯科技入駐DoraHacks第四次工業革命駭客馬拉松
2019-06-27
基於Python的QQ空間相簿中的所有照片下載器
2019-05-27
Python
使用IDM批量抓取音效素材下載
2020-11-03
魅族雲相簿批量下載方案
2021-09-03
只有4%的公司讓AI計劃真正落地？如何成為AI馬拉松領跑者
2018-11-16
AI
技術程式碼讓生活更美好，齊聚碼力駭客馬拉松圓滿落幕
2023-09-23

python批量下載馬拉松照片

原始碼地址： github.com/halibobo/ru…

文章地址： https://dahei.me

前言

1. 分析

1.1 Chrome除錯

1.2請求分析

2.程式碼

2.1

2.2 下載

最後

相關文章