python爬蟲爬取csdn部落格專家所有部落格內容

Thinkgamer_gyt發表於2015-08-27

原文網址 : https://blog.csdn.net/gamer_gyt/article/details/48035659

python爬蟲爬取csdn部落格專家所有部落格內容：

全部過程採取自動識別與抓取，抓取結果是將一個博主的所有文章存放在以其名字命名的檔案內，程式碼如下

#coding:utf-8

import urllib2
from bs4 import BeautifulSoup
import os
import re
#import sys
#reload(sys)
#sys.setdefaultencoding("utf-8")


def getPage(href): #偽裝成瀏覽器登陸,獲取網頁原始碼
    headers = {  
        'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
    }  
    req = urllib2.Request(  
        url = href ,
        headers = headers  
    )
    try:
        post = urllib2.urlopen(req)
    except urllib2.HTTPError,e:
        print e.code
        print e.reason
    return post.read()

url = 'http://blog.csdn.net/experts.html'

def getEvery(url):
    hrefList = []
    page = BeautifulSoup(getPage(url))
    div = page.find('div',class_='side_nav')
    liList = div.find_all('li')
    for li in liList:
        href = 'http://blog.csdn.net' + li.a.get('href')
        if href!='http://blog.csdn.net/experts.html':
            hrefList.append(href)
    return hrefList
#第一部分：得到首頁部落格專家各個系列連結
#===============================================================================
def getAll(href): #得到每個類別所有專家的姓名和部落格首頁地址
    page=BeautifulSoup(getPage(href))  #得到移動專家首頁原始碼，並beautifulsoup化
    div = page.find('div',class_='list_3',id='experts')
    for li in div.find_all('li'):
        name = li.get_text()
        href = li.a.get('href')
        getBlog(name,href)
#第二部分：得到每類所有專家的姓名和首頁連結
#===============================================================================
def getPageNum(href):
    num =0
    page = getPage(href)
    soup = BeautifulSoup(page)
    div = soup.find('div',class_='pagelist')
    if div:
        result = div.span.get_text().split(' ')
        list_num = re.findall("[0-9]{1}",result[3])
        for i in range(len(list_num)):
            num = num*10 + int(list_num[i]) #計算總的頁數
        return num
    else:
        return 0

def getText(name,url):
    page = BeautifulSoup(getPage(url))
    span_list = page.find_all('span',class_='link_title')
    div_list = page.find_all('div',class_='article_description')
    k =0
    str1 = 'none'
    fp = open("text\%s.txt" % name,"a")
    # 獲取文章內容和內容
    for div in div_list:
        title = span_list[k].a.get_text().strip()
        text = div.get_text()
        title = title.encode('utf-8')  #轉換成utf-8編碼，否則後文寫不到檔案裡
        text = text.encode('utf-8')
        #print title
        k+=1
        fp.write(str(title) + '\n' + str(text) + '\n')
        fp.write('===========================================' + '\n')
        
    fp.close()

def getBlog(name,href):
    i =1
    for i in range(1,(getPageNum(href)+1)):
        url = href + '/article/list/' + str(i)
        print url
        getText(name,url)
        i+=1
    print href,'======================================OK'
    
#第三部分：得到每類所有專家的部落格內容連結
#===============================================================================


if __name__=="__main__":
    hrefList = getEvery(url)
    for href in hrefList:
        getAll(href)

結果如下：

Python爬取CSDN部落格資料
2019-01-03
Python
01、部落格爬蟲
2019-04-11
爬蟲
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
爬取部落格園文章
2020-07-31
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中（2）
2018-12-27
爬蟲PythonExcel
分享5個爬蟲專業部落格網站
2021-10-12
爬蟲網站
[雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門
2018-09-10
Python爬蟲
Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時
2018-06-23
Python爬蟲
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
實現爬取csdn個人部落格並匯出資料
2020-09-24
Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片
2019-06-16
Python爬蟲
Python爬蟲-部落格園首頁推薦部落格排行(整合詞雲+郵件傳送)
2019-05-14
Python爬蟲
Python爬蟲入門教程 40-100 部落格園Python相關40W部落格抓取 scrapy
2019-02-25
Python爬蟲
部落格專家
2018-09-07
部落格園記錄：汽車引數爬蟲
2024-11-06
爬蟲
Python3爬取CSDN個人部落格相關資料--新增GUI圖形化介面
2020-12-11
PythonGUI
部落格開張及本部落格內容簡介
2024-07-19
部落格內容規範
2024-09-02
【爬蟲工具】下載部落格轉成Markdown的形式
2019-02-16
爬蟲
每天一個爬蟲-learnku我的部落格列表
2021-06-17
爬蟲
你的部落格可能被爬了
2019-07-25
批量匯出 CSDN 部落格並轉為 hexo 部落格風格
2019-09-30
Hexo
部落格內容管理實現
2018-11-14
好的前端內容部落格
2019-03-12
前端
寫在部落格內容之前
2020-11-11
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
如何轉載CSDN部落格
2018-04-27
《將部落格搬至CSDN》
2024-05-26
將部落格搬至CSDN
2024-07-08
Python爬蟲實戰系列1：部落格園cnblogs熱門新聞採集
2024-03-13
Python爬蟲
新版CSDN部落格如何新增別人的部落格連結
2020-10-16
增補部落格第十九篇 python 爬樓梯
2024-06-14
Python
我的第一篇部落格（從爬蟲開始）
2020-09-29
爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
將部落格搬運至CSDN
2020-11-10
部落格轉移回csdn了。
2024-08-01
Go秒爬部落格園100頁新聞
2018-08-01
Go
ScienceDirect內容爬蟲
2021-07-21
爬蟲

python爬蟲爬取csdn部落格專家所有部落格內容

相關文章