爬取多個頁面的資料

Como0413發表於2018-01-18

原文網址 : https://blog.csdn.net/Como0413/article/details/79092379

程式碼如下：

# -*- coding:utf8 -*-
#匯入requests庫，取別名res
import requests as res
#匯入bs4包，取別名bs
from bs4 import BeautifulSoup as bs
#匯入資料庫驅動包
import MySQLdb
#宣告頁面從哪開始
j = 1
#迴圈遍歷每個頁面
while j <= 111:
    ##獲取目標網站的網頁
    #r代表將“”內的所有內容都預設為字串
    path = r"http://www.bengyechina.com/product/enterprise_alllist_0_0_0_" + str(j) + ".html"
    #請求獲取目標網頁的html
    doc = res.get(path)
    #準備要爬取資料的列表
    names = []
    imgs = []
    #需要bs解析器去解析網頁
    text = bs(doc.text,"html.parser")
    #從網頁中查詢類標籤名為plist的下標為0的所有內容
    p1 = text.select(".plist")[0]
    #從類標籤名為plist的下標為0的html中查詢標籤為li的內容中的img中所有內容
    img = text.select("li img")
    #宣告變數作為下標，並初始化
    i = 0
    #---------------爬取資料結束---------------
    #---------------資料寫入資料庫----------------
    #連線mysql資料庫中的pachong資料庫
    #connect("主機名","使用者名稱","密碼","資料庫名",charset = "utf8")
    conn = MySQLdb.connect("localhost","使用者名稱","密碼","pachong",charset = "utf8")
    #獲取遊標運算元據庫
    cursor = conn.cursor()
    #準備sql語句
    sql = "insert into bengye(name,img) "
    #迴圈往資料庫中新增資料
    for p2 in p1.select("li"):
        #p2代表每一個li標籤
        #獲取p2裡面的h2
        p3 = p2.select("h2")[0].select("a")[0].text
        #往列表中新增資料
        names.append(p3)
        imgs.append(img[i]["src"])
        # print names[i]
        # print "-----------------------"
        # print imgs[i]
        #判斷是否為新增資料的最後一條
        if i != len(p1.select("li")) - 1 :
            #mysql中的同時往表中插入多條資料的程式碼
            sql += " select '" +names[i]+"','"+imgs[i]+"' union \n"
        else :
            #mysql中的同時往表中插入多條資料的程式碼的最後一條程式碼
            sql += " select '" +names[i]+"','"+imgs[i]+"'"
        #累加器
        i = i + 1
    #執行sql語句
    cursor.execute(sql)
    #提交事物
    conn.commit()
    #關閉連結
    conn.close()
    #頁面的累加器
    j = j + 1
    # print "*****************"
    # print j
    # print "&&&&&&&&&&&&&&&&&&&&&&"

Puppeteer爬取網頁資料
2019-03-22
網頁
python爬取58同城一頁資料
2018-08-04
Python
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
結合LangChain實現網頁資料爬取
2024-07-18
LangChain網頁
Python 爬取網頁資料的兩種方法
2023-02-15
Python網頁
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
用Jupyter—Notebook爬取網頁資料例項14
2020-12-01
網頁
用Jupyter—Notebook爬取網頁資料例項12
2020-12-01
網頁
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
爬取子頁
2018-08-24
python實現微博個人主頁的資訊爬取
2021-01-03
Python
zf_利用feapder中的selenium網頁爬取資料
2024-06-03
網頁
爬取網頁文章
2021-09-29
網頁
一個批次爬取微博資料的神器
2024-08-30
小福利，用gevent多協程高效爬取海量資料
2020-10-18
如何使用python多執行緒有效爬取大量資料？
2021-09-11
Python執行緒
Python網路爬蟲第三彈《爬取get請求的頁面資料》
2018-09-14
Python爬蟲
獲取當前頁面的topViewController
2019-03-25
ViewController
讓 scrapy 重複爬取同一個頁面
2019-09-25
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
Python：爬取疫情每日資料
2020-02-17
Python
同花順資料爬取
2024-06-27
python 非同步佇列爬取多個網站
2020-11-21
Python非同步佇列網站
爬取知乎單個網頁問題和回答
2021-09-09
網頁
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
ferret 爬取動態網頁
2019-12-15
網頁
關於python爬取網頁
2021-03-10
Python網頁
python爬取換頁_爬蟲爬不進下一頁了，怎麼辦
2020-11-24
Python爬蟲
python爬取股票資料並存到資料庫
2021-03-29
Python資料庫
config 裡面的database 資料庫連線取不到 .env 裡面的資料庫配置，所有快取已清，求解
2021-09-10
Database資料庫快取
C#爬取動態網頁上的資訊：B站主頁
2024-09-27
C#網頁
Python 爬取 baidu 股票市值資料
2019-02-16
PythonAI
鬥魚彈幕資料爬取
2018-12-08

爬取多個頁面的資料

程式碼如下：

相關文章