中信證券抓取（頁碼範圍）

随风小屋發表於2024-08-07

原文網址 : https://www.cnblogs.com/suifeng2000/p/18346226

中信證券抓取（頁碼範圍）

建立時間：2024年8月5日

一、完整程式碼

import re
import requests
from lxml import etree

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36',
}
url1 = 'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index.html'
res = requests.get(url=url1, headers=headers, verify=False)
res.encoding = res.apparent_encoding
total_num = int(re.search('var countPage = (?P<page>\d+)//共多少頁', res.text).group('page'))


def get_data(url):
    url = url.replace('\n', '')
    print(url)
    response = requests.get(url=url,
                            headers=headers, verify=False)
    response.encoding = response.apparent_encoding
    data = response.text
    tree = etree.HTML(data)
    rows = tree.xpath('/html/body/div[4]/div/ul/li')

    for row in rows:
        row_mc = row.xpath('./span[@class="th1"]/text()')
        row_glr = row.xpath('./span[@class="th2"]/text()')
        row_fxpj = row.xpath('./span[@class="th3"]/text()')
        row_je = row.xpath('./span[@class="th4"]/text()')
        row_gs = row.xpath('./span[@class="th5"]/text()')
        sting = f"{row_mc}, {row_glr}, {row_fxpj}, {row_je}, {row_gs},'\n'"

        sting = sting.replace("['", "").replace("']", "").replace("'", "")
        with open('./zxzq/中信證券.txt', 'a+', encoding='utf-8') as f:
            f.write(sting)


start_page = int(input('請輸入需要抓取的頁碼開始：（1開始）'))

end_page = int(input(f'請輸入需要抓取的頁碼結束：（{total_num}結束）'))

for i in range(start_page - 1, end_page):
    if end_page + 1 > total_num:
        print('頁碼超過資料限制！！')
        exit(-1)
    if i == 0:
        url = 'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index.html'
        get_data(url)
    else:
        url = f'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index_{i}.html'
        get_data(url)

1.1 效果

二、學習點

2.1 verify 引數

verify關鍵字引數，在請求的時候不驗證網站的ca證書

2.2 設定編碼

res.encoding = res.apparent_encoding
# 大部分情況可以自動解碼，實在不行可手動設定編碼
res.encoding = 'utf-8'

2.3 運用正規表示式獲取頁碼

total_num = int(re.search('var countPage = (?P<page>\d+)//共多少頁', res.text).group('page'))
# search(pattern, string, flags=0)  掃描字串尋找匹配的模式，返回一個match物件，如果沒有找到匹配則返回None。

頁面原始碼對應的頁碼位置：

2.4 xpath路徑

rows = tree.xpath('/html/body/div[4]/div/ul/li')

for row in rows:
    row_mc = row.xpath('./span[@class="th1"]/text()')
    row_glr = row.xpath('./span[@class="th2"]/text()')
    row_fxpj = row.xpath('./span[@class="th3"]/text()')
    row_je = row.xpath('./span[@class="th4"]/text()')
    row_gs = row.xpath('./span[@class="th5"]/text()')
    sting = f"{row_mc}, {row_glr}, {row_fxpj}, {row_je}, {row_gs},'\n'"

    sting = sting.replace("['", "").replace("']", "").replace("'", "")

先解析到所有的資料，然後在遍歷匹配出來

2.5 分頁邏輯

start_page = int(input('請輸入需要抓取的頁碼開始：（1開始）'))

end_page = int(input(f'請輸入需要抓取的頁碼結束：（{total_num}結束）'))

for i in range(start_page - 1, end_page):
    if end_page + 1 > total_num:
        print('頁碼超過資料限制！！')
        exit(-1)
    if i == 0:
        url = 'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index.html'
        get_data(url)
    else:
        url = f'http://www.cs.ecitic.com/newsite/cpzx/jrcpxxgs/zgcp/index_{i}.html'
        get_data(url)

首頁地址和第二頁地址，第三頁有規律，按照規律即可寫出來

CB認證產品範圍
2019-12-06
Bulletproof範圍證明之最佳化
2024-11-07
智慧化防控，網易雲易盾助力中信證券“內容安全”
2018-06-29
中信證券：拼多多、淘寶五維度對比分析（附下載）
2019-10-17
Flink 流處理在中信建投證券的實踐與應用
2022-03-11
中信證券：2020全球5G和新基建產業展望（附下載）
2020-09-17
產業
中信證券：元宇宙的未來猜想和投資機遇（附下載）
2021-11-12
元宇宙
中信建投證券：日本科技產業發展啟示錄（附下載）
2020-04-08
產業
中信證券：重新審視稀缺的中國稀土戰略資源（附下載）
2020-08-16
中信證券：2020全球網際網路行業回顧與展望（附下載）
2020-07-16
行業
中信證券：數字經濟的產業趨勢與機遇（附下載）
2020-09-22
產業
中信證券：女性向遊戲日漸崛起，深耕領域造精品（附下載）
2020-11-22
遊戲
中信證券：2021年汽車AI晶片行業專題報告（附下載）
2022-01-24
AI晶片行業
中信證券：2022下半年巨集觀經濟展望報告（附下載）
2022-06-28
【Python】Python抓取分享頁面的原始碼示例
2019-06-27
Python原始碼
門羅幣隱私保護之範圍證明
2024-11-01
紫光西部資料助力中信建投證券實現海量資料儲存創新
2018-05-07
中信證券：預計2020年蘋果iPad銷量有望回暖達到5000萬部
2020-09-16
蘋果iPad
中信證券：2020年電子行業智慧音訊專題報告（附下載）
2020-08-11
行業音訊
中信證券：“十四五”規劃及2035年遠景目標展望（附下載）
2020-11-10
中信證券：2021年運營商行業5G專題報告（附下載）
2021-12-07
行業
範圍分割槽
2020-10-05
軟考——範圍
2020-10-27
中信證券：Elon Musk所想的自動駕駛，跟現實有啥差距？（附下載）
2021-10-28
自動駕駛
中信證券：2022中國中青年養老成熟度調查報告（附下載）
2022-12-19
中信證券：2021年8月資料科技資料創新研究報告（附下載）
2021-09-17
隨機範圍小數和隨機範圍整數
2024-06-01
隨機
中信證券：2022年智慧汽車&自動駕駛產業專題報告（附下載）
2022-07-06
自動駕駛產業
SciPy 應用範圍
2023-12-14
JavaScript 拖拽限定範圍
2019-10-05
JavaScript
中泰證券：內容社群84頁研究框架（附下載）
2021-11-26
框架
智慧 Monkey 在指定執行的頁面範圍內執行方案
2021-01-11
中信建投證券攜手博睿資料，打造不一般的數字化體驗
2021-06-09
檢視分割槽範圍
2024-05-27
保護範圍和物件
2024-03-20
物件
資料型別範圍
2018-03-29
資料型別
python - 生成時間範圍
2024-11-13
Python
int/double資料範圍
2024-10-13

中信證券抓取（頁碼範圍）

中信證券抓取（頁碼範圍）

一、完整程式碼

1.1 效果

二、學習點

2.1 verify 引數

2.2 設定編碼

2.3 運用正規表示式獲取頁碼

2.4 xpath路徑

2.5 分頁邏輯

相關文章