爬取東方財富股吧中評論資料

莫格利發表於2020-10-12

原文網址 : https://blog.csdn.net/liu_1314521/article/details/109039315

東方財富股吧是有反爬取機制的，我們通過減慢爬取速率的方法來避免爬取檢測。這種方法爬取網頁資料的速率很慢，並不會對網站的訪問造成影響，當然我們可以改進方法，使得爬取資料更快。但並不鼓勵大家非法爬取資料，只用作學習交流。
直接上程式碼吧：

import requests
from bs4 import BeautifulSoup
import time
import random
import csv  # 匯入CSV安裝包

#f = open('test.csv', 'w', encoding='utf-8')
f = open('comment.csv', 'w', newline="")   #建立檔案物件
csv_writer = csv.writer(f)  #基於檔案物件構建 csv寫入物件
csv_writer.writerow(["序號", "commentId", "text", "userId", "date", "likeCount", "fans"])
count = 0

def getHtml(url):#下載網頁原始碼
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; LCTE; rv:11.0) like Gecko'}
    try:
        r = requests.get(url,headers=header)
        r.encoding = 'utf-8'
        #print(r.status_code)
        r.raise_for_status()
        return r.text
    except:
        getHtml(url)


# region 隨機延時

# 固定延時x秒
def delay_x_0_s(fixed_delay_num):
    x = float(fixed_delay_num)
    time.sleep(x)


# 隨機延時 0~y 秒
def delay_0_y_s(random_delay_num):
    y = float(random_delay_num)
    time.sleep(random.random() * y)


# 先固定延時x秒，再隨機延時 0~y 秒
# 延時區間，包前不包後
def delay_x_y_s(fixed_delay_num, random_delay_num):
    delay_x_0_s(fixed_delay_num)
    delay_0_y_s(random_delay_num)


# 隨機延時 x~y 秒
# 延時區間，包前不包後
def delay_between_x_y_s(start_delay_num, end_delay_num):
    x = float(start_delay_num)
    y = float(end_delay_num)
    delay_x_0_s(x)
    delay_0_y_s(y - x)

for page in range(100, 1001):
    delay_between_x_y_s(2, 5)
    url = "http://guba.eastmoney.com/list,zssh000001,f_" + str(page) + ".html"
    print(url)
    # url = 'http://guba.eastmoney.com/list,zssh000001,f_1.html'
    html = getHtml(url)
    soup = BeautifulSoup(html, "html.parser")
    #print(soup)
    contain = soup.find_all("div", {"class": "articleh"})   #獲取存有資料的div標籤，存在contain中，因為一個頁面有多條評論，所以contain是一個列表。
    for i in contain[:]:   #遍歷contain
        try:
            delay_between_x_y_s(2, 5)
            content = i.find("span", {"class": "l3 a3"}).find("a")    #獲取一個div便籤中第三個span標籤下的a標籤，其有href和title兩個屬性
            print(content)
            contentUrl = "http://guba.eastmoney.com"+content["href"]  #content["href"]是該評論的詳細介面網址，因為其是相對地址，所以需要在前新增網址的字首，得到完整的介面網址
            print("contentUrl: " + contentUrl + "\n")
            commentId = content["href"][-14:-5]   #我們觀察content["href"]屬性的值，發現其是具有規則的字串，從該字串的倒數第14個位置到倒數第5個位置是該條評論的id
            print("commentId: " + commentId + "\n")
            text = content.attrs["title"] #獲取評論文字（標題）
            print("text: " + text + "\n")
            userUrl = i.find("span", {"class": "l4 a4"}).find("a").attrs["href"]  #用同樣的方法獲取使用者主頁連結
            if userUrl == "/list,cjpl.html":
                continue
            print("userUrl: " + userUrl + "\n")
            userId = userUrl[23:] #獲取使用者ID
            if userId == "":    #跳過討論帖子
                continue
            if userId == "3006113720930996":    #跳過股吧賬號
                continue
            if userId == "/3006113720930996":
                continue
            if userId == "7428111481466798":
                continue
            if userId == "6712111507146464":
                continue
            if userId == "6255325874333310":
                continue
            print("userId: " + userId + "\n")
            delay_between_x_y_s(2, 5)
            commentHtml = getHtml(contentUrl)   # 獲取評論詳細資訊原始碼
            #print("commentHtml: " + commentHtml + "\n")
            soup = BeautifulSoup(commentHtml, "html.parser")
            #print(soup)
            date = soup.find("div", {"class": "zwfbtime"}).text[4:14]   # 獲取評論發表時間
            print("date: " + date + "\n")
            #if date == "2020-07-01":
            #    continue
            likeCount = int(soup.find("div", {"data-like_count": True}).attrs['data-like_count'])  # 獲取評論點贊數，並轉換成整數型別。（因為從html中獲取會認為是字串型別）
            print("likeCount: ", likeCount, "\n")
            #likeCount = int(soup.find("div", {"data-like_count": True}).attrs['data-like_count'])
            #print(likeCount)
            delay_between_x_y_s(2, 5)
            userHtml = getHtml(userUrl) # 獲取使用者主頁原始碼
            soup = BeautifulSoup(userHtml, "html.parser")
            #print(soup)
            fans = int(soup.find("a", {"id": "tafansa"}).find("span").text) # 獲取使用者粉絲數
            print("fans: ", fans, "\n")
            count = count + 1
            csv_writer.writerow([count, commentId, text, userId, date, likeCount, fans])
        except:
            print('出現異常，繼續檢視下一篇文章')
            continue

f.close()

如何利用 Selenium 爬取評論資料？
2018-04-12
東方財富財報：2023年Q3東方財富實現營收27.38億元同比減少15.83%
2023-10-29
營收
爬取天貓商品評論
2020-12-03
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
爬蟲實踐之獲取網易雲評論資料資訊
2022-03-29
爬蟲
利用釘釘機器人API傳送東方財富交易資訊
2021-06-12
機器人API
東方財富：2019年度最佳分析師榜單
2020-01-03
京東商品評論資料介面，電商平臺評論介面，行業商品評論資料介面程式碼封裝教程
2023-04-06
行業封裝
大眾點評餐飲資料爬取（2020.11）
2020-11-10
【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊
2021-03-24
Python爬蟲
feapder框架爬取ks評論_遞迴的方式
2024-06-07
框架遞迴
python 爬取騰訊視訊的全部評論
2021-02-17
Python
終於打通了 QMT 東方財富實盤大賽調倉跟蹤
2024-03-23
微博爬取長津湖博文及評論
2021-10-08
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
Python爬取貓眼評分9.5的《海王》的3萬條評論
2018-12-14
Python
python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）
2018-06-27
Python爬蟲
【python爬蟲案例】利用python爬取豆瓣電影TOP250評分排行資料！
2024-09-18
Python爬蟲
九方財富衝上市，股民血虧急退費
2023-02-23
IMI：2023年中國財富管理能力評價報告
2024-06-11
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
東方甄選財報：2024財年東方甄選營收約70.73億元同比增長56.8%
2024-08-25
營收
新東方財報：2018財年Q3新東方營收6.18億美元同比增長41%
2018-04-24
營收
大眾點評商家爬取
2024-06-25
諾亞財富：2018中國高淨值人群財富白皮書
2018-05-16
API 獲取商品評論？
2023-04-04
API
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
網易雲音樂評論爬蟲（2）：歌曲的全部評論
2018-10-10
爬蟲
Python：爬取疫情每日資料
2020-02-17
Python
Puppeteer爬取網頁資料
2019-03-22
網頁
同花順資料爬取
2024-06-27
新東方財報：2024財年Q1新東方淨營收11億美元同比增長47.7%
2023-10-26
營收
東方甄選財報：2024財年中期東方甄選總營收27.95億元同比增長34.4%
2024-01-25
營收
Scrapy爬蟲（6）爬取銀行理財產品並存入MongoDB（共12w+資料）
2018-03-15
爬蟲MongoDB
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
資料視覺化（一）A股三大指數10年漲跌幅比較：資料爬取和整理
2020-11-13
視覺化
淘寶商品評論資料介面，電商平臺評論介面，行業商品評論資料介面程式碼封裝教程
2023-04-06
行業封裝
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片

爬取東方財富股吧中評論資料

相關文章