使用python爬取豆瓣電影TOP250
使用python爬取豆瓣電影TOP250
①獲取指定介面的html文字資訊 板塊
②獲取排名和連結,名字:因為名字,排名和連結 同在div class='pic'下面 獲取屬性值的時候直接用 .a.attrs['href'] 非常方便 strip()去除前後的\t\n\f
③獲取分數和評價板塊 用 select['span'] 返回的是 第二個span 標籤內容 xpath 1 就是1
④寫入excel模組
⑤整理大的列表
⑥執行:
①獲取指定介面的html文字資訊 板塊
②獲取排名和連結,名字:因為名字,排名和連結 同在div class='pic’下面 獲取屬性值的時候直接用 .a.attrs[‘href’] 非常方便 strip()去除前後的\t\n\f
③獲取分數和評價板塊 用 select[‘span’] 返回的是 第二個span 標籤內容 xpath 1 就是1
注:xpath 和bs4 的返回索引不一樣
④寫入excel模組
⑤整理大的列表
⑥執行:
具體程式碼:
import requests
from bs4 import BeautifulSoup
import csv
rank=[]
link=[]
names=[]
score=[]
assess=[]
aList=[]
def getHMLText(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE'
}
r=requests.get(url,timeout=30,headers=headers)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except Exception as e:
print("產生的異常是",e) #e.status_code 狀態碼
def getContent(Html):
soup = BeautifulSoup(Html,"html.parser")
for li in soup.select(".grid_view li"):
for item in li.findall('div',class='pic'):
rank.append(item.text.strip()) #排名
link.append(item.a.attrs['href'])
names.append(item.a.img.attrs['alt'])
def getScoreAndassess(Html):
soup = BeautifulSoup(Html, "html.parser")
for li in soup.select(".grid_view li"):
for info in li.findall('div', class='info'):
for bd in info.findall('div',class='bd'):
score.append(bd.div.select('span')[1].text)
assess.append(bd.div.select('span')[3].text)
#print(bd.div.select('span')[3].text)
def saveListCSV(fileName,aList):
try:
with open(fileName,'w',newline='')as fp:
writer = csv.writer(fp)
writer.writerow(["排名", "電影名稱", "評分", "評價數","URL"])
for item in aList:
writer.writerow(item)
print('{0}儲存成功!共{1}條記錄'.format(fileName,len(aList)))
except IOError as err:
print(fileName,'檔案建立錯誤:',err)
def allLsit(aList):
for i in range(len(rank)):
aList.append([rank[i],names[i],score[i],assess[i],link[i]])
return aList
if name=="main":
for i in range(1, 11):
url = " + str((int(i) - 1) * 25) + "&filter="
Html= getHMLText(url)
getContent(Html)
getScoreAndassess(Html)
aList=allLsit(aList)
#print(aList)
data=aList[1125:]
saveListCSV('./movie.csv',data)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69996206/viewspace-2762302/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python爬取分析豆瓣電影Top250Python
- scrapy入門:豆瓣電影top250爬取
- python——豆瓣top250爬取Python
- 爬取豆瓣電影Top250和資料分析
- 【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料!Python爬蟲
- 正規表示式_爬取豆瓣電影排行Top250
- 豆瓣top250資料爬取
- 手把手教你網路爬蟲(爬取豆瓣電影top250,附帶原始碼)爬蟲原始碼
- python更換代理爬取豆瓣電影資料Python
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲
- scrapy爬取豆瓣電影資料
- Python爬蟲筆記(4):利用scrapy爬取豆瓣電影250Python爬蟲筆記
- Python爬蟲教程-17-ajax爬取例項(豆瓣電影)Python爬蟲
- python爬蟲 爬取豆瓣電影 1-10 ajax 資料Python爬蟲
- 豆瓣電影TOP250爬蟲及視覺化分析筆記爬蟲視覺化筆記
- 資料視覺化豆瓣電影 TOP250視覺化
- 爬蟲01:爬取豆瓣電影TOP 250基本資訊爬蟲
- 【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料Python爬蟲
- Python爬取電影天堂Python
- 教你用python登陸豆瓣並爬取影評Python
- Python爬取豆瓣電影的短評資料並進行詞雲分析處理Python
- 專案之爬蟲入門(豆瓣TOP250)爬蟲
- 【Python】從0開始寫爬蟲——轉身扒豆瓣電影Python爬蟲
- 豆瓣top250(go版以及python版)GoPython
- python爬取貓眼正在熱映電影Python
- python 爬取飄花電影 下載地址Python
- Python 從底層結構聊 Beautiful Soup 4(內建豆瓣最新電影排行榜爬取案例)Python
- Python3爬取貓眼電影資訊Python
- Python爬蟲例項:爬取貓眼電影——破解字型反爬Python爬蟲
- 擼個爬蟲,爬取電影種子爬蟲
- python爬取貓眼電影top100儲存到CSVPython
- Python網路爬蟲實踐案例:爬取貓眼電影Top100Python爬蟲
- java爬取豆瓣書籍資訊Java
- 批量抓取豆瓣電影圖片
- Python網路爬蟲(正則, 內涵段子,貓眼電影, 鏈家爬取)Python爬蟲
- python-爬蟲-css提取-寫入csv-爬取貓眼電影榜單Python爬蟲CSS
- 一篇文章教會你利用Python網路爬蟲實現豆瓣電影採集Python爬蟲
- Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料Spring Boot爬蟲