教你用python爬蟲爬blibili網站彈幕!
嗶哩嗶哩眾所周知是彈幕的天堂,影片觀看人數越多,彈幕也就越多。今天小千就來教大家如何去使用Python開發一個爬蟲來爬取B站的彈幕資料。
1、彈幕哪裡找?
平常我們在看影片時,彈幕是出現在影片上的。實際上在網頁中,彈幕是被隱藏在原始碼中,以XML的資料格式進行載入的:
XML和JSON、YAML一樣是一種通用的標記資訊表達方式,可以簡單的理解為一種記錄資料的格式。XML和描述網頁的語言HTML非常像,所以你會在截圖中看到<d></d>這樣的標籤。
那麼上圖這個彈幕檔案的url是什麼呢?
它以一個固定的url地址+影片的cid+.xml組成。只要找到你想要的影片cid,替換這個url就可以爬取所有彈幕了(b站大部分網頁給出的字幕限制是1000條)。
一個影片的cid在哪裡呢?右鍵網頁,開啟網頁原始碼,搜尋cid”就能找到:
cid在網頁原始碼中是一個很常見的片語,而我們要尋找的正確的cid都會寫成"cid":xxxxxxxx的形式。為了縮小搜尋範圍,在後方加上一個引號會更快搜尋到。
有了正確的cid,拼好url,我們就來寫爬蟲吧!
2、爬蟲庫到底是什麼?
基本所有初學Python爬蟲的人都會接觸到requests、BeautifulSoup這兩個工具庫,這是兩個常用基礎庫。requests用於向網站url發起請求,以獲取網頁程式碼;BeautifulSoup用於將HTML/XML內容解析,並提取裡面的重要資訊。
這兩個庫模擬了人訪問網頁,讀懂網頁並複製貼上出對應資訊的過程,能夠批次地、快速地完成資料爬取。
3、開始爬取
觀察網頁,可以發現,所有的彈幕都放在了<d>標籤下,那麼我們需要構建一個程式獲取所有的<d>標籤:
第一步,匯入requests庫,使用request.get方法訪問彈幕url:
import requests
#獲取頁面資料html
url=r'
r=requests.get(url)#訪問url
r.encoding='utf8'
第二步,匯入BeautifulSoup庫,使用lxml解析器解析頁面:
from bs4 import BeautifulSoup
#解析頁面
soup=BeautifulSoup(r.text,'lxml')#lxml是常用的解析器,需要提前使用pip工具安裝lxml庫
d=soup.find_all('d')#找到所有頁面的d標籤
#print(d)
這樣操作後,所有藏在d標籤裡的彈幕內容就被python抓取到了 :
#解析彈幕,將彈幕、網址、時間整理為字典,最後加和成列表,共1000條資料
資料整理之後我們還可以進行分析,例如詞彙量出現頻率等等,這個可以根據需求來自由處理即可。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31548651/viewspace-2764111/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 教你用Python爬取圖蟲網Python
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲小專案:爬一個圖書網站Python爬蟲網站
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- 招聘網站爬蟲模板網站爬蟲
- scrapy + mogoDB 網站爬蟲Go網站爬蟲
- 【python--爬蟲】彼岸圖網高清桌布爬蟲Python爬蟲
- Python爬蟲入門教程 2-100 妹子圖網站爬取Python爬蟲網站
- Python實時爬取鬥魚彈幕Python
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- python DHT網路爬蟲Python爬蟲
- 【Python爬蟲】正則爬取趕集網Python爬蟲
- Python網路爬蟲第三彈《爬取get請求的頁面資料》Python爬蟲
- 教你用Python爬蟲自制有道翻譯詞典Python爬蟲
- python就是爬蟲嗎-python就是爬蟲嗎Python爬蟲
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- python網路爬蟲(9)構建基礎爬蟲思路Python爬蟲
- python 爬蟲Python爬蟲
- python爬蟲Python爬蟲
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- python例項,python網路爬蟲爬取大學排名!Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- python網路爬蟲合法嗎Python爬蟲
- Python網路爬蟲實戰Python爬蟲
- python 爬蟲網頁登陸Python爬蟲網頁
- Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作Python爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- Python爬蟲教程-01-爬蟲介紹Python爬蟲
- Java爬蟲與Python爬蟲的區別?Java爬蟲Python
- Python爬蟲爬取B站up主所有動態內容Python爬蟲
- python 爬蟲 mc 皮膚站 little skin 的簡單爬取Python爬蟲
- 《Python3網路爬蟲開發實戰》教程||爬蟲教程Python爬蟲