從豆瓣電影批量獲取看過這部電影的使用者列表

發表於2015-10-12

前言

由於之後要做一個實驗，需要用到大量豆瓣使用者的電影資料，因此想到了從豆瓣電影的“看過這部電影的豆瓣成員”頁面上來獲取較為活躍的豆瓣電影使用者。

連結分析

這是看過”模仿遊戲”的豆瓣成員的網頁連結：http://movie.douban.com/subject/10463953/collections。

一頁上顯示了20名看過這部電影的豆瓣使用者。當點選下一頁時，當前連線變為：http://movie.douban.com/subject/10463953/collections?start=20。

由此可知，當請求下一頁內容時，實際上就是將”start”後的索引增加20。

因此，我們可以設定base_url=’http://movie.douban.com/subject/10463953/collections?start=’,i=range(0,200,20),在迴圈中url=base_url+str(i)。

之所以要把i的最大值設為180，是因為後來經過測試，豆瓣只給出看過一部電影的最近200個使用者。

讀取網頁

在訪問時我設定了一個HTTP代理，並且為了防止訪問頻率過快而被豆瓣封ip，每讀取一個網頁後都會呼叫time.sleep(5)等待5秒。在程式執行的時候幹別的事情好了。

網頁解析

本次使用BeautifulSoup庫解析html。

每一個使用者資訊在html中是這樣的：

 <table width="100%" class="">
  <tr>
      <td width="80" valign="top">
          <a href="http://movie.douban.com/people/46770381/">
              <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />
          </a>
      </td>
      <td valign="top">
          <div class="pl2">
              <a href="http://movie.douban.com/people/46770381/" class="">七月
                  <span style="font-size:12px;">(銀川)</span>
              </a>
          </div>
          <p class="pl">2015-08-23
                  &nbsp;<span class="allstar40" title="推薦"></span>
          </p>
      </td>
  </tr>
  </table>

<tr>

</a>

</td>

<a href="http://movie.douban.com/people/46770381/" class="">七月

</a>

</div>

<p class="pl">2015-08-23

</p>

</td>

</tr>

</table>

首先用讀取到的html初始化soup=BeautifulSoup(html)。本次需要的資訊僅僅是使用者id和使用者的電影主頁，因此真正有用的資訊在這段程式碼中：

 <td width="80" valign="top">
      <a href="http://movie.douban.com/people/46770381/">
          <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />
      </a>
  </td> <td width="80" valign="top">
      <a href="http://movie.douban.com/people/46770381/">
          <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />
      </a>
  </td>

</a>

</td> <td width="80" valign="top">

</a>

</td>

因此在Python程式碼中通過td_tags=soup.findAll(‘td’,width=’80’,valign=’top’)找到所有<td width=”80″ valign=”top”>的塊。

td=td_tags[0],a=td.a就可以得到

<a href="http://movie.douban.com/people/46770381/">
      <img class="" src="http://img4.douban.com/icon/u46770381-16.jpg" alt="七月" />
  </a>

</a>

通過link=a.get(‘href’)可以得到href屬性，也就使用者的電影主頁連結。然後通過字串查詢也就可以得到使用者ID了。

完整程式碼

#coding=utf-8
##從豆瓣網頁中得到使用者id

##網頁地址型別：http://movie.douban.com/subject/26289144/collections?start=0
##              http://movie.douban.com/subject/26289144/collections?start=20

from BeautifulSoup import BeautifulSoup
import codecs
import time
import urllib2

baseUrl='http://movie.douban.com/subject/25895276/collections?start='

proxyInfo='127.0.0.1:8087'
proxySupport=urllib2.ProxyHandler({'http':proxyInfo})
opener=urllib2.build_opener(proxySupport)
urllib2.install_opener(opener)

#將使用者資訊（id，主頁連結）儲存至檔案
def saveUserInfo(idList,linkList):
    if len(idList)!=len(linkList):
        print 'Error: len(idList)!=len(linkList) !'
        return
    writeFile=codecs.open('UserIdList3.txt','a','utf-8')
    size=len(idList)
    for i in range(size):
        writeFile.write(idList[i]+'\t'+linkList[i]+'\n')
    writeFile.close()

#從給定html文字中解析使用者id和連線
def parseHtmlUserId(html):
    idList=[]   #返回的id列表
    linkList=[] #返回的link列表

    soup=BeautifulSoup(html)
    ##<td width="80" valign="top">
    ##<a href="http://movie.douban.com/people/liaaaar/">
    ##<img class="" src="/u3893139-33.jpg" alt="Liar." />
    ##</a>
    ##</td>
    td_tags=soup.findAll('td',width='80',valign='top')
    i=0
    for td in td_tags:
        #前20名使用者是看過這部電影的，
        #而後面的只是想看這部電影的使用者，因此捨棄
        if i==20:
            break
        a=td.a
        link=a.get('href')
        i_start=link.find('people/')
        id=link[i_start+7:-1]
        idList.append(id)
        linkList.append(link)
        i+=1
    return (idList,linkList)

#返回指定編號的網頁內容
def getHtml(num):
    url=baseUrl+str(num)
    page=urllib2.urlopen(url)
    html=page.read()
    return html

def launch():
    #指定起始編號：20的倍數
    ques=raw_input('Start from number?（Multiples of 20） ')
    startNum=int(ques)
    if startNum%20 != 0:
        print 'Input number error!'
        return
    for i in range(startNum,200,20):
        print 'Loading page %d/200 ...' %(i+1)
        html=getHtml(i)
        (curIdList,curLinkList)=parseHtmlUserId(html)
        saveUserInfo(curIdList,curLinkList)
        print 'Sleeping.'
        time.sleep(5)

#coding=utf-8

##從豆瓣網頁中得到使用者id

##網頁地址型別：http://movie.douban.com/subject/26289144/collections?start=0

## http://movie.douban.com/subject/26289144/collections?start=20

from BeautifulSoup import BeautifulSoup

import codecs

import time

import urllib2

baseUrl='http://movie.douban.com/subject/25895276/collections?start='

proxyInfo='127.0.0.1:8087'

proxySupport=urllib2.ProxyHandler({'http':proxyInfo})

opener=urllib2.build_opener(proxySupport)

urllib2.install_opener(opener)

#將使用者資訊（id，主頁連結）儲存至檔案

def saveUserInfo(idList,linkList):

if len(idList)!=len(linkList):

print 'Error: len(idList)!=len(linkList) !'

return

writeFile=codecs.open('UserIdList3.txt','a','utf-8')

size=len(idList)

for i in range(size):

writeFile.write(idList[i]+'\t'+linkList[i]+'\n')

writeFile.close()

#從給定html文字中解析使用者id和連線

def parseHtmlUserId(html):

idList=[] #返回的id列表

linkList=[] #返回的link列表

soup=BeautifulSoup(html)

##<td width="80" valign="top">

##<a href="http://movie.douban.com/people/liaaaar/">

##<img class="" src="/u3893139-33.jpg" alt="Liar." />

##</a>

##</td>

td_tags=soup.findAll('td',width='80',valign='top')

i=0

for td in td_tags:

#前20名使用者是看過這部電影的，

#而後面的只是想看這部電影的使用者，因此捨棄

if i==20:

break

a=td.a

link=a.get('href')

i_start=link.find('people/')

id=link[i_start+7:-1]

idList.append(id)

linkList.append(link)

i+=1

return (idList,linkList)

#返回指定編號的網頁內容

def getHtml(num):

url=baseUrl+str(num)

page=urllib2.urlopen(url)

html=page.read()

return html

def launch():

#指定起始編號：20的倍數

ques=raw_input('Start from number?（Multiples of 20） ')

startNum=int(ques)

if startNum%20 != 0:

print 'Input number error!'

return

for i in range(startNum,200,20):

print 'Loading page %d/200 ...' %(i+1)

html=getHtml(i)

(curIdList,curLinkList)=parseHtmlUserId(html)

saveUserInfo(curIdList,curLinkList)

print 'Sleeping.'

time.sleep(5)

Python：獲取豆瓣電影TOP250列表
2017-08-08
Python
批量抓取豆瓣電影圖片
2021-11-15
scrapy爬取豆瓣電影資料
2021-09-11
31部黑客電影你看過哪幾部？
2014-10-17
黑客
豆瓣：2013年瘋狂電影大資料之看電影
2014-01-28
大資料
Flutter(十二)之練習高仿豆瓣電影列表
2019-10-06
Flutter
scrapy入門：豆瓣電影top250爬取
2019-02-16
使用python爬取豆瓣電影TOP250
2021-03-11
Python
Python爬取分析豆瓣電影Top250
2018-09-07
Python
從看電影到“玩”電影，電影技法究竟如何在遊戲中融合和應用
2020-06-30
遊戲
React實現的超高仿豆瓣電影
2019-03-04
React
python更換代理爬取豆瓣電影資料
2019-08-03
Python
爬蟲01:爬取豆瓣電影TOP 250基本資訊
2020-12-29
爬蟲
爬取豆瓣電影Top250和資料分析
2022-06-20
全棧 - 9 實戰爬取豆瓣電影資料
2017-03-03
全棧
程式設計師該看的幾部電影
2020-02-11
程式設計師
豆瓣電影外掛使用幫助
2017-03-04
豆瓣：2013年瘋狂電影大資料之聊電影
2014-01-28
大資料
正規表示式_爬取豆瓣電影排行Top250
2021-07-07
Python 爬蟲實戰（1）：分析豆瓣中最新電影的影評
2017-08-11
Python爬蟲
豆瓣電影資料分析和視覺化
2016-11-19
視覺化
小程式之豆瓣電影原始碼解讀
2017-01-20
原始碼
用 kNN 演算法預測豆瓣電影使用者的性別
2015-10-12
KNN演算法
無影雲電腦獲取windows密碼的方法
2024-07-31
Windows密碼
Python爬蟲筆記（4）：利用scrapy爬取豆瓣電影250
2018-11-10
Python爬蟲筆記
Python爬蟲教程-17-ajax爬取例項（豆瓣電影）
2018-09-06
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
【Python】從0開始寫爬蟲——轉身扒豆瓣電影
2018-08-16
Python爬蟲
一部影響美國網路安全政策的電影
2017-07-03
資料視覺化豆瓣電影 TOP250
2019-02-23
視覺化
React Native——使用SectionList改造電影列表
2019-03-04
React Native
Python爬取電影天堂
2018-11-01
Python
Vue全家桶實現還原豆瓣電影wap版
2017-04-23
Vue
nodejs 30行程式碼爬豆瓣電影資料
2017-12-14
NodeJS行程
從電影分析到遊戲分析
2021-04-02
遊戲
win10為什麼我的電腦看電影會鎖屏 win10電腦看電影自動鎖屏處理方法
2020-11-25
Win10
福利來啦！VIP電影免費看！
2017-07-19
2013年豆瓣電影【口碑榜】Top100
2014-01-11

從豆瓣電影批量獲取看過這部電影的使用者列表

相關文章