python爬蟲如何獲取表情包

lee_lgw發表於2021-09-11

python爬蟲如何獲取表情包

1、建立請求頭,也被稱為偽裝瀏覽器

如果不新增請求頭的話,可能會出現當前網站沒有訪問許可權。

2、使用requests 網路請求庫完成網站資料請求

3、獲取資料後使用bs4對頁面資料進行提取

需要用到一個非常好用的第三方包:bs4。

例項

import os
import requests
from bs4 import BeautifulSoup
 
if not os.path.exists('./images/'):
    os.mkdir('./images/')
 
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
}
 
url = ''
response = requests.get(url, headers=headers).text
 
'''
lxml: html解析庫,因為python和html兩者沒有關係
python沒有辦法直接控制html程式碼
我們就需要使用lxml這個庫將html程式碼轉成python物件
    需要大家去下載 pip install lxml
'''
soup = BeautifulSoup(response, 'lxml')
img_list = soup.find_all('img', class_='ui image lazy')
for img in img_list:
img_url = img['data-original']
img_title = img['title']
print(img_url, img_title)
try:
     with open('./images/' + img_title + os.path.splitext(img_url)[-1], 'wb') as f:
        '''
        因為一張圖片是二進位制資料
            如果我們使用text文字形式返回
            會對檔案造成破壞
            
            使用content去返回原始資料
            
        '''
         image = requests.get(img_url, headers=headers).content
         # 寫入二進位制資料 image這個變數是儲存requests返回的二進位制資料的
         f.write(image)
         print('儲存成功:', img_title)
except:
     pass

以上就是python爬蟲獲取表情包的方法,希望對大家有所幫助。更多Python學習指路:

本文教程操作環境:windows7系統、Python 3.9.1,DELL G3電腦。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/1020/viewspace-2829527/,如需轉載,請註明出處,否則將追究法律責任。

相關文章