爬蟲如何爬取貓眼電影TOP榜資料
爬蟲是如何爬取貓眼電影TOP榜資料的。主要抓取的內容有排名、圖片、電影名稱、主演、上映時間和評分資訊。在抓取之前,我們先開啟貓眼電影TOP100頁面,研究分析頁面,查詢我們需要的資訊位置,然後抓取。
程式碼如下:
import json
import requests
from requests.exceptions import RequestException
import re
import time
def get_one_page(url):
try: headers = { 'User-Agent': 'agent資訊'} response = requests.get(url, headers=headers) if response.status_code == 200: return response.text return None except RequestException: return None
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a' + '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>' + '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S) items = re.findall(pattern, html) for item in items: yield { 'index': item[0], 'image': item[1], 'title': item[2], 'actor': item[3].strip()[3:], 'time': item[4].strip()[5:], 'score': item[5] + item[6] }
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f: f.write(json.dumps(content, ensure_ascii=False) + '\n')
def main(offset):
url = '(offset) html = get_one_page(url) for item in parse_one_page(html): print(item) write_to_file(item)
if name == ' main ':
for i in range(10): main(offset=i * 10) time.sleep(1)
透過上述程式碼,我們就可以獲取到貓眼電影TOP榜資料資訊了。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903461/viewspace-2647880/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單Python爬蟲CSS
- Python爬蟲例項:爬取貓眼電影——破解字型反爬Python爬蟲
- python初級爬蟲之貓眼電影Python爬蟲
- python爬取貓眼電影top100儲存到CSVPython
- python爬取貓眼正在熱映電影Python
- Python3爬取貓眼電影資訊Python
- Python網路爬蟲(正則, 內涵段子,貓眼電影, 鏈家爬取)Python爬蟲
- 爬蟲01:爬取豆瓣電影TOP 250基本資訊爬蟲
- Python爬蟲入門實戰之貓眼電影資料抓取(理論篇)Python爬蟲
- Python爬蟲入門實戰之貓眼電影資料抓取(實戰篇)Python爬蟲
- 擼個爬蟲,爬取電影種子爬蟲
- python爬蟲 爬取豆瓣電影 1-10 ajax 資料Python爬蟲
- 【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料!Python爬蟲
- 爬取豆瓣電影Top250和資料分析
- Python反爬:利用js逆向和woff檔案爬取貓眼電影評分資訊PythonJS
- Python爬蟲教程-11-proxy代理IP,隱藏地址(貓眼電影)Python爬蟲
- 爬蟲爬取資料如何繞開限制?爬蟲
- scrapy爬取豆瓣電影資料
- 如何保障爬蟲高效穩定爬取資料?爬蟲
- [python爬蟲] BeautifulSoup和Selenium對比爬取豆瓣Top250電影資訊Python爬蟲
- 貓眼票房大屏投影及常規版資料爬取
- 手把手教你網路爬蟲(爬取豆瓣電影top250,附帶原始碼)爬蟲原始碼
- 【Python3網路爬蟲開發實戰】3.4-抓取貓眼電影排行Python爬蟲
- scrapy入門:豆瓣電影top250爬取
- 使用python爬取豆瓣電影TOP250Python
- Python爬取分析豆瓣電影Top250Python
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Python爬蟲教程-17-ajax爬取例項(豆瓣電影)Python爬蟲
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲
- python3 網路爬蟲開發實戰 貓眼top100Python爬蟲
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- 如何合理控制爬蟲爬取速度?爬蟲
- 爬蟲實戰——58同城租房資料爬取爬蟲
- 利用Python爬蟲爬取天氣資料Python爬蟲
- scrapy 爬電影 抓取資料
- 貓眼研究院:2021年度電影型別票房榜–喜劇電影Top10型別
- 豆瓣top250資料爬取
- python更換代理爬取豆瓣電影資料Python