豆瓣top250資料爬取
import requests
import re
import pandas as pd
from pyquery import PyQuery as pq
headers = {
‘User-Agent’: ‘Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36’}
urls = []
for tag in range(0, 250, 25):
url = f’https://movie.douban.com/top250?start={tag}’
html = requests.get(url,headers=headers).text
doc = pq(html)
items = doc(’#content > div > div.article > ol > li’).items()
for item in items:
urls.append(item(’.hd > a’).attr(‘href’))
def parase_page(url):
html = requests.get(url,headers=headers).text
doc = pq(html)
res[‘rank’].append(doc(’.top250-no’).text())
res[‘rating’].append(doc(’.rating_num’).text())
res[‘name’].append(doc(’#content > h1 > span[property=“v:itemreviewed”]’).text())
# res.txt[‘type’] = doc(‘span[property=“v:genre”]’).text()
res[‘type’].append(’/’.join(re.findall(r’(.?)’, html)))
country = re.compile('製片國家/地區:(.?)
’, re.S)
res[‘country’].append(’/’.join(re.findall(country, html)))
language = re.compile(‘語言:(.*?)
’, re.S)
res[‘language’].append(’/’.join(re.findall(language, html)))
# res.txt[‘director’] = doc(’#info > span:nth-child(1) > span.attrs > a’).text()
res[‘date’].append(doc(’#info > span[property=“v:initialReleaseDate”]’).text()[:4])
res[‘run_time’].append(doc(‘span[property=“v:runtime”]’).text())
res[‘comments_user’].append(doc(‘span[property=“v:votes”]’).text())
res[‘five_star_ratio’].append(pq(doc(’.rating_per’)[0]).text())
res[‘four_star_ratio’].append(pq(doc(’.rating_per’)[1]).text())
res[‘three_star_ratio’].append(pq(doc(’.rating_per’)[2]).text())
res[‘two_star_ratio’].append(pq(doc(’.rating_per’)[3]).text())
res[‘one_star_ratio’].append(pq(doc(’.rating_per’)[4]).text())
print([i[-1] for i in list(res.values())])
res = {‘rank’: [],
‘name’: [] ,
‘type’: [] ,
‘country’: [] ,
‘language’: [] ,
‘date’: [] ,
‘run_time’: [] ,
‘rating’ : [],
‘comments_user’: [],
‘five_star_ratio’ : [],
‘four_star_ratio’ : [],
‘three_star_ratio’ : [],
‘two_star_ratio’ : [],
‘one_star_ratio’ : []
}
print(list(res.keys()))
for url in urls:
parase_page(url)
df = pd.DataFrame(res)
df.to_excel(‘豆瓣電影Top250.xls’)
豆瓣榜單top250
發給某些人做畢業設計想白嫖.
需要資料的聯絡q:940755193
相關文章
- python——豆瓣top250爬取Python
- 爬取豆瓣電影Top250和資料分析
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲
- Python爬取分析豆瓣電影Top250Python
- 使用python爬取豆瓣電影TOP250Python
- scrapy入門:豆瓣電影top250爬取
- 【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料!Python爬蟲
- 【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料Python爬蟲
- 正規表示式_爬取豆瓣電影排行Top250
- scrapy爬取豆瓣電影資料
- 專案之爬蟲入門(豆瓣TOP250)爬蟲
- 手把手教你網路爬蟲(爬取豆瓣電影top250,附帶原始碼)爬蟲原始碼
- 資料視覺化豆瓣電影 TOP250視覺化
- python更換代理爬取豆瓣電影資料Python
- python爬蟲 爬取豆瓣電影 1-10 ajax 資料Python爬蟲
- java爬取豆瓣書籍資訊Java
- 豆瓣電影TOP250爬蟲及視覺化分析筆記爬蟲視覺化筆記
- Puppeteer 爬取豆瓣小組公開資訊
- 爬蟲01:爬取豆瓣電影TOP 250基本資訊爬蟲
- Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料Spring Boot爬蟲
- 豆瓣top250(go版以及python版)GoPython
- 房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取Python爬蟲
- Python爬取豆瓣電影的短評資料並進行詞雲分析處理Python
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Python爬蟲教程-17-ajax爬取例項(豆瓣電影)Python爬蟲
- 爬蟲豆瓣美女爬蟲
- 06、豆瓣爬蟲爬蟲
- python爬蟲練習之爬取豆瓣讀書所有標籤下的書籍資訊Python爬蟲
- 教你用python登陸豆瓣並爬取影評Python
- 爬蟲爬取資料如何繞開限制?爬蟲
- Python:爬取疫情每日資料Python
- Puppeteer爬取網頁資料網頁
- 同花順資料爬取
- 用python寫一個豆瓣短評通用爬蟲(登入、爬取、視覺化)Python爬蟲視覺化
- 爬蟲實戰——58同城租房資料爬取爬蟲
- 如何保障爬蟲高效穩定爬取資料?爬蟲
- python爬取股票資料並存到資料庫Python資料庫
- Python 爬取 baidu 股票市值資料PythonAI