Python3爬取貓眼電影資訊
import json
import requests
from requests.exceptions import RequestException
import re
import time
#爬取貓眼電影資訊
def get_one_page(url):
#增加了User-Agent識別,需要在headers中新增User-Agent引數。
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36'
}
response = requests.get(url, headers=headers)
if response.status_code == 200:
return response.text
return None
except RequestException:
return None
#正則提取
def parse_one_page(html):
pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
+ '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
+ '.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
items = re.findall(pattern, html)
#遍歷提取結果並生成字典
for item in items:
yield {
'index': item[0],
'image': item[1],
'title': item[2],
'actor': item[3].strip()[3:],
'time': item[4].strip()[5:],
'score': item[5] + item[6]
}
#寫入檔案
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8') as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n')
def main(offset):
url = 'http://maoyan.com/board/4?offset=' + str(offset)
html = get_one_page(url)
for item in parse_one_page(html):
print(item)
write_to_file(item)
#分頁爬取
if __name__ == '__main__':
for i in range(10):
main(offset=i * 10)
#延時等待
time.sleep(1)
相關文章
- python爬取貓眼正在熱映電影Python
- 爬蟲如何爬取貓眼電影TOP榜資料爬蟲
- Python反爬:利用js逆向和woff檔案爬取貓眼電影評分資訊PythonJS
- Python爬蟲例項:爬取貓眼電影——破解字型反爬Python爬蟲
- python爬取貓眼電影top100儲存到CSVPython
- python初級爬蟲之貓眼電影Python爬蟲
- Python網路爬蟲(正則, 內涵段子,貓眼電影, 鏈家爬取)Python爬蟲
- python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單Python爬蟲CSS
- Python網路爬蟲實踐案例:爬取貓眼電影Top100Python爬蟲
- 【Python3網路爬蟲開發實戰】3.4-抓取貓眼電影排行Python爬蟲
- vue仿貓眼電影webappVueWebAPP
- 【Python3網路爬蟲開發實戰】3-基本庫的使用-4抓取貓眼電影排行Python爬蟲
- Python爬蟲教程-11-proxy代理IP,隱藏地址(貓眼電影)Python爬蟲
- 爬蟲01:爬取豆瓣電影TOP 250基本資訊爬蟲
- 手把手教你爬取優酷電影資訊-2
- 手把手教你爬取優酷電影資訊 -1
- Python爬蟲入門實戰之貓眼電影資料抓取(理論篇)Python爬蟲
- Python爬蟲入門實戰之貓眼電影資料抓取(實戰篇)Python爬蟲
- 貓眼票房大屏投影及常規版資料爬取
- python3 網路爬蟲開發實戰 貓眼top100Python爬蟲
- Python爬取電影天堂Python
- 擼個爬蟲,爬取電影種子爬蟲
- scrapy爬取豆瓣電影資料
- [Python3]selenium爬取淘寶商品資訊Python
- 手把手教你用RecyclerView實現貓眼電影選擇效果View
- 貓眼研究院:2021年度電影型別票房榜–喜劇電影Top10型別
- [python爬蟲] BeautifulSoup和Selenium對比爬取豆瓣Top250電影資訊Python爬蟲
- 1.HtmlAgilityPack爬取優酷電影名HTML
- Python爬取貓眼評分9.5的《海王》的3萬條評論Python
- 貓眼研究院:2019暑期檔電影市場資料洞察
- 騰訊&貓眼:網際網路時代的電影發展研究報告(附下載)
- 貓眼專業版資料:電影《默殺》上映4天總票房破2億
- scrapy入門:豆瓣電影top250爬取
- 使用python爬取豆瓣電影TOP250Python
- Python爬取分析豆瓣電影Top250Python
- python 爬取飄花電影 下載地址Python
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Python爬蟲教程-17-ajax爬取例項(豆瓣電影)Python爬蟲