豆瓣top250（go版以及python版）

polong發表於2018-10-22

原文網址 : https://flycode.co/archives/236212

最近學習go,就找了一個例子練習【go語言爬蟲】go語言爬取豆瓣電影top250，思路大概就是獲取網頁，然後根據頁面元素，用正規表示式匹配電影名稱、評分、評論人數。原文有個地方需要修改下pattern4 := <img width="100" alt="(.*?)" src=，這樣就能執行了結果截圖
這個例子可以由修改下變成併發的形式，提高效能（參考golang 併發 chan）
“`
var sem chan int = make(chan int,10);
for i := 0; i < 10; i++ {
go func(i int) {
header := map[string]string{
“Host”: “movie.douban.com”,
“Connection”: “keep-alive”,
“Cache-Control”: “max-age=0”,
“Upgrade-Insecure-Requests”: “1”,
“User-Agent”: “Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36”,
“Accept”: “text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8″,
“Referer”: “https://movie.douban.com/top250“,
}
fmt.Println(“正在抓取第” + strconv.Itoa(i) + “頁……”)
url := “https://movie.douban.com/top250?start=” + strconv.Itoa(i*25) + “&filter=”
spider := &Spider{url, header}
html := spider.get_html_header()

        pattern2 := `<span>(.*?)評價</span>`
        rp2 := regexp.MustCompile(pattern2)
        find_txt2 := rp2.FindAllStringSubmatch(html, -1)
        
        pattern3 := `property="v:average">(.*?)</span>`
        rp3 := regexp.MustCompile(pattern3)
        find_txt3 := rp3.FindAllStringSubmatch(html, -1)


        pattern4 := `<img width="100" alt="(.*?)" src=`
        rp4 := regexp.MustCompile(pattern4)
        find_txt4 := rp4.FindAllStringSubmatch(html, -1)

        for i := 0; i < len(find_txt2); i++ {
            fmt.Printf("%s %s %s
", find_txt4[i][1], find_txt3[i][1], find_txt2[i][1], )
            f.WriteString(find_txt4[i][1] + "	" + find_txt3[i][1] + "	" + find_txt2[i][1] + "	" + "
")

        }
        sem <- 0
    }(i)
}
for i := 0; i < 10; i++ { <-sem }
close(sem)

![併發效果截圖](https://user-gold-cdn.xitu.io/2018/3/20/162429602098ad78?w=719&h=302&f=png&s=10912)
&emsp;&emsp;到這裡go爬蟲部分已經介紹完畢，百無聊賴之際又寫了一個python版，python很簡潔

coding=utf-8

import re
import urllib2
import datetime
def getDouban(i):
print “爬取第” + str(i)+”頁”
html = “https://movie.douban.com/top250?start=” + str(i) + “&filter=”
try:
page = urllib2.urlopen(html, timeout=3)
result = page.read()
score = re.findall(`property=”v:average”>(.?)`,result)
person = re.findall(`(.?)評價`,result)
name= re.findall(`<img width=”100″ alt=”(.*?)” src=`, result)
j=0
while j<len(name):
print name[j], score[j]+`分`, person[j]
j=j+1
except:
print i
starttime = datetime.datetime.now()
params=[]
for i in range(25):
getDouban(i)
endtime = datetime.datetime.now()
print “爬蟲歷時”+str((endtime-starttime).seconds)+”s完成”
“`
python版執行結果

python——豆瓣top250爬取
2021-01-02
Python
Python爬取分析豆瓣電影Top250
2018-09-07
Python
使用python爬取豆瓣電影TOP250
2021-03-11
Python
豆瓣top250資料爬取
2020-11-09
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
scrapy入門：豆瓣電影top250爬取
2019-02-16
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
資料視覺化豆瓣電影 TOP250
2019-02-23
視覺化
專案之爬蟲入門（豆瓣TOP250）
2020-11-19
爬蟲
爬取豆瓣電影Top250和資料分析
2022-06-20
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
正規表示式_爬取豆瓣電影排行Top250
2021-07-07
基於vue搭建一個簡易版豆瓣
2019-03-03
Vue
基於React搭建一個簡易版豆瓣
2019-03-03
React
豆瓣電影TOP250爬蟲及視覺化分析筆記
2021-11-09
爬蟲視覺化筆記
Python豆瓣源
2018-11-18
Python
Python 豆瓣頂帖
2019-01-02
Python
python 版 appcrawler
2020-10-20
PythonAPP
etcd 框架實踐【Go 版】
2024-07-01
框架Go
flask實踐之“盜版豆瓣評分小程式完整版”
2020-10-23
Flask
python電子版
2019-03-19
Python
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
極速精簡 Go 版 Logstash
2021-09-09
Go
Python學習手冊(第4版)PDF版
2018-12-18
Python
idea熱部署外掛jrebel正式版以及破解版安裝
2018-09-06
Idea熱部署
豆瓣預告片爬蟲以及管理後臺
2018-04-27
爬蟲
python爬蟲系列版
2018-03-16
Python爬蟲
氣泡排序（python版）
2020-11-03
排序Python
Socket爬蟲：Python版
2023-01-09
爬蟲Python
Go 語言：The Laws of Reflection 中文版
2018-11-27
Go
Go語言開發者福利 - 國內版 The Go Playground
2018-12-03
Go
Go語言開發者福利 – 國內版 The Go Playground
2019-03-04
Go
抽空搭建了個國內版—The Go Playground
2019-10-26
Go
注意：Go 1.18版本iota的bug
2022-05-03
Go
設計模式 1 （Python版）
2024-05-26
設計模式Python
資料結構（python版）
2024-05-26
資料結構Python
【Python】官方文件中文版
2019-03-22
Python
Python寫春聯（turtle版）
2022-01-30
Python

豆瓣top250（go版以及python版）

coding=utf-8

相關文章