Python 1-4

weixin_34249678發表於2016-06-24

原文網址 : https://blog.csdn.net/weixin_34249678/article/details/87562190

注意事項

非同步載入
如何保持檔案
設定代理

import requests
from bs4 import BeautifulSoup
import urllib.request

base_path = '/Users/XXX/python/Swift/'
base_url = 'http://weheartit.com/inspirations/taylorswift?scrolling=true&page='

# 設定代理,網上百度下具體的IP即可。代理不太穩定,測試過程中,換了好幾個代理才成功
proxies = {'http':'http://121.42.178.60:1080'}

# 模擬登入
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'
}

# 確定要爬取的頁數,並生成對應的url列表
def get_img_url(num):
    # 定義一個空列表,存放要下載照片的url
    img_urls = []
    for page_num in range(1, num+1):
        # 字串連線"+"
        url = base_url + str(page_num)
        web_data = requests.get(url, headers = headers, proxies = proxies)
        if web_data.status_code == 200:
            soup = BeautifulSoup(web_data.text, 'lxml')
            imgs = soup.select('img.entry-thumbnail')
            print(imgs)
            for img in imgs:
                img_urls.append(img.get('src'))
        else:
            print('伺服器異常')
    print(len(img_urls), 'imgs should be downloaded')
    return img_urls


def get_img(url):
    img_name = base_path + url.split('/')[-2] + '.' + url.split('.')[-1]    # split() 函式對url分割,獲取檔名

    # 方法一:通過urllib.request.urlretrieve方式寫資料,失敗
    # urllib.request.urlretrieve(url,img_name) # img_name表示圖片的路徑(資料夾的路徑+圖片的命名)

    # 方法二
    # 獲取到的圖片，如何轉為 二進位制 儲存到本地。content是二進位制格式的資料，text是自動根據 HTTP 響應頭部的編碼型別解碼為 unicode 的結果
    img_data = requests.get(url, headers = headers, proxies = proxies)
    with open(img_name, "wb") as fs:
        fs.write(img_data.content)

for url in get_img_url(6):
    get_img(url)

'''
1、非同步載入
通過 JS 實現動態載入資料，在與當前 HTML 頁面的載入並不一起進行，比如同時進行，或在載入完當前頁面後，在下拉頁面時載入，這是通過 JS 的 XHR 實現。
如果是通過 XHR 在當前頁面載入完後的非同步載入，可以chrome 瀏覽器中，右擊頁面-檢查-network-XHR，然後下拉頁面進行非同步載入，能夠看到載入的請求url、頭部和返回的動態資料。同時，在Elements中可以看到 HTML 元素在動態變化

2、請求的圖片儲存本地
獲取到的圖片，如何轉為 二進位制 儲存到本地。content是二進位制格式的資料，text是自動根據 HTTP 響應頭部的編碼型別解碼為 unicode 的結果
img_data = requests.get(img_url)
with open(str(img_name), 'wb') as f:
    print type(img_data.content)
    f.write(img_data.content)

3、黴黴的網站需要翻牆設定代理
4、關於圖片的格式型別:jpg、webp
WebP格式，谷歌（google）開發的一種旨在加快圖片載入速度的圖片格式。圖片壓縮體積大約只有JPEG的2/3，並能節省大量的伺服器頻寬資源和資料空間。Facebook Ebay等知名網站已經開始測試並使用WebP格式。
但WebP是一種有失真壓縮。相較編碼JPEG檔案，編碼同樣質量的WebP檔案需要佔用更多的計算資源。
桌面版Chrome可開啟WebP格式。
'''

1-4序列的應用1
2020-10-26
「日常訓練」「小專題·USACO」 Wormholes（1-4）
2018-07-28
Worm
《程式碼大全》讀書筆記1（1-4）
2024-10-31
筆記
「日常訓練」「小專題·USACO」 Barn Repair（1-4）
2018-07-28
AI
「日常訓練」「小專題·USACO」 Ski Course Design （1-4）
2018-07-28
Python爬蟲（1-4）-基本概念、六個讀取方法、下載（原始碼、圖片、影片）、user-agent反爬
2024-07-10
Python爬蟲原始碼
CSharp初級篇 1-4 this、索引器、靜態、常量以及只讀
2019-07-20
CSharp索引
CTR：2022年1-4月廣告市場同比減少8.9%
2022-05-30
「日常訓練」「小專題·圖論」昂貴的聘禮（1-4）
2018-08-06
圖論
C程式設計語言(第2版·新版)練習題1-4
2024-08-24
C程式程式設計
CTR：2022年1-4月三大細分廣告市場變化
2022-06-06
【進階1-4期】JavaScript深入之帶你走進記憶體機制
2018-11-22
JavaScript記憶體
海關總署：2023年1-4月中國進出口增長5.8%
2023-05-15
酷雲互動：2020年1-4月明星影響力洞察報告
2020-06-02
工信部：2020年1-4月通訊業經濟執行資料
2020-05-20
工信部：2024年1-4月份通訊業經濟執行情況
2024-05-27
工信部：2019年1－4月份通訊業經濟執行情況
2019-05-24
工信部：2024年1-4月份軟體業經濟執行情況
2024-05-30
工信部：2024年1-4月電信業務總量同比增長12.5%
2024-05-25
CTR：2022年1-4月廣播廣告刊例花費同比下跌4.4%
2022-06-06
海關總署：2022年1-4月中國外貿進出口情況
2022-05-11
Fastdata極數：2022年1-4月中國旅遊行業洞察報告
2022-05-06
AST行業
工信部：2021年1-4月紡織行業執行資料情況
2021-06-08
行業
工信部：2021年1-4月化纖行業執行資料情況
2021-06-08
行業
工信部：2021年1－4月通訊業主要指標完成情況
2021-05-26
指標
奧維雲網：2019年1-4月洗碗機跑贏精裝市場大盤
2019-06-27
交通運輸部：2024年1-4月交通運輸行業主要統計指標
2024-06-05
行業指標
中汽協會：2021年1-4月汽車商品前十國出口金額排名
2021-06-08
工信部：2021年1－4月通訊業經濟執行資料情況
2021-05-26
中國汽車流通協會：2020年1-4月中國汽車進出口分析
2020-06-01
世界旅遊組織：2020年1-4月國際旅遊收入減少1950億美元
2020-06-24
工信部：2019年1-4月軟體業務收入20504億元同比增長14.8%
2019-05-27
工信部：2021年1-4月造紙行業經濟執行資料情況
2021-06-08
行業
果集資料：飲料品牌2021年1-4月社媒營銷投放分析報告
2021-05-31
中國汽車流通協會：2019年4月1-4日一週分析車市掃描
2019-04-11
乘聯會：2023年1-4月豪華車銷量超87萬輛同比增速11%
2023-05-17
中國物流與採購聯合會：2020年1-4月份物流執行資料
2020-05-28
工信部：2020年1-4月網際網路和相關服務業執行情況
2020-05-27
CoinSchedule：2019年1-4月阿聯酋數字貨幣銷售金額達2.1億美元
2019-05-01

Python 1-4

注意事項

相關文章