Python爬蟲小專案：爬一個圖書網站

porryCn發表於2018-11-21

原文網址 : https://blog.csdn.net/porryCn/article/details/84317361

#!/usr/bin/python
#coding:utf-8

import json
import urllib2
import re
from bs4 import BeautifulSoup
import MySQLdb

import sys
reload(sys)
sys.setdefaultencoding('utf8')


def ConnectMysql(book_name,imglist,writer,info,url):
    print book_name,imglist,writer,info,url
    try:
        myconnet=MySQLdb.connect("localhost","root","","db_books",charset="utf8")
    except MySQLdb.OperationalError,message:
        print "資料庫連線失敗"
    mycursor=myconnet.cursor()
    sql="insert into book_info values('%s','%s','%s','%s','%s')"%(book_name,imglist,writer,info,url)

    mycursor.execute(sql)
    myconnet.commit()
    mycursor.close()
    myconnet.close()

def OpenPage(page):
    Myheader={}
#urllib2.Request 第一個是待爬的url，第二個是我們的請求頭headers
    request=urllib2.Request(page,headers=Myheader)
#urlopen傳送請求指定請求
    f=urllib2.urlopen(request)
#將物件f 使用read讀取相應的內容
    data=f.read()

    return data.decode("GBK",errors="ignore").encode("utf-8")

#解析指定頁面內容
def JiexiPage(data):
    soup=BeautifulSoup(data,"html.parser")
    list_ebook=soup.find_all(href=re.compile("thread-"))

    url_list=[]
    for item in list_ebook:
        url_list.append("http://www.51dupdf.com/"+item['href'])


    url_list=list(set(url_list))
    return url_list


#深剖析每一個頁面內容
def EachPageJx(url):
    pagedata=OpenPage(url)
    soup=BeautifulSoup(pagedata,"html.parser")
    adress=r'<img src="([^"]+\.jpg)'
    imglist = re.findall(adress, pagedata)
    imgaddr="http://www.51dupdf.com/"+imglist[1]

    book_name=soup.find_all('a',class_=re.compile("vt_title"))[0].get_text()
    writer=soup.find('tbody').find_all('tr')[0].get_text()
    writer=writer.split(" ")
    edtion=writer[2]
    writer=writer[5]
    writer=writer.split("\n")
    writer=writer[0]
    info=soup.find_all('td',class_=re.compile("t_f"))[0].get_text()
    info=info.encode("utf-8")
    info="詳細資訊請開啟下面的連結"
    ConnectMysql(book_name,imgaddr,writer,info,url)

import math
if __name__=="__main__":
    page_url_list=[]
    for item in range(1,15):
        page_url_list.append("http://www.51dupdf.com/forum.php?mod=forumdisplay&fid=45&typeid=21&sortid=2&typeid=21&sortid=2&filter=typeid&page="+"%d"%item)

    for page_list in page_url_list:
        print page_list
        page_data=OpenPage(page_list)
        url_list=JiexiPage(page_data)
        for item in url_list:
            EachPageJx(item)

python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
爬蟲小專案
2019-05-10
爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
實戰：如何通過python requests庫寫一個抓取小網站圖片的小爬蟲
2020-01-25
Python網站爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
最新《30小時搞定Python網路爬蟲專案實戰》
2020-02-18
Python爬蟲
網路爬蟲——Urllib模組實戰專案（含程式碼）爬取你的第一個網站
2020-02-12
爬蟲網站
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲
如何快速建立一個爬蟲專案
2020-11-20
爬蟲
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
分享5個爬蟲專業部落格網站
2021-10-12
爬蟲網站
Python爬蟲專案100例，附原始碼！100個Python爬蟲練手例項
2021-09-09
Python爬蟲原始碼
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
python爬蟲小專案--飛常準航班資訊爬取variflight（上）
2019-03-23
Python爬蟲
教你用python爬蟲爬blibili網站彈幕！
2021-03-22
Python爬蟲網站
爬蟲專案
2019-06-07
爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
送給Python小白學習爬蟲的小專案
2020-04-12
Python爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲

Python爬蟲小專案：爬一個圖書網站

相關文章