網路爬蟲——爬取糗事百科笑料段子

life4711發表於2015-12-23

這兩天在看python，抱著一本python學習手冊看了好幾天了，感覺沒有什麼長進。聽說python寫網路爬蟲挺好，就在網上搜了一下教程，跟著看來看，一知半解自己也模仿著寫了一個小專案：爬取糗事百科笑料段子

或許是頁面程式碼重寫了吧，教程的程式碼不怎麼好用，我模仿的該了一下正規表示式，修改了一下功能，感覺還能使，昨天晚上實現了。隊友說：你這學爬蟲心理就是爬黃段子啊==明明是糗事好不！

功能：爬取程式碼執行時糗事百科前6頁的笑料段子，儲存到當前資料夾的“1.txt”檔案中。

參考教程：http://blog.csdn.net/pleasecallmewhy/article/details/8932310

糗事百科主頁：http://www.qiushibaike.com

程式碼：

#coding=utf-8  
import urllib2  
import urllib  
import re  
import sys  
reload(sys)  
sys.setdefaultencoding("utf-8")  
  
#---載入----  
class Spider_Model:  
  
    def __init__(self,x):  
        self.page = x  
  
    #---將所有的段子都扣出來並且加到一個字串中  
    def GetPage(self,page):  
        myUrl = "http://www.qiushibaike.com/hot/page/" + page      
        user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'     
        headers = { 'User-Agent' : user_agent }     
        req = urllib2.Request(myUrl,headers = headers)  
        myResponse = urllib2.urlopen(req)  
        myPage = myResponse.read()  
        unicodePage = myPage.decode("utf-8")  
        #re.S是任意匹配模式，也就是說.可以匹配換行符  
        myItems = re.findall('<div class="content">(.*?)<!',unicodePage,re.S)  
        s=""  
        i=0  
        for items in myItems:  
            x=items.replace('<br/>','\n')  
            i=i+1  
            s=s+'\n第%d條：' % i + x  
        return s  
    def Start(self):  
        page=self.page  
        try:  
            mypage=self.GetPage(str(page))  
        except:  
            print u'無法連結糗事百科'  
        return mypage  
  
#-----主程式入口處------  
print u'載入http://www.qiushibaike.com 前2頁的段子'  
try:  
    myfile=open('./1.txt','w')  
    for x in range(1,3):  
        print u'正在載入第%d頁......' % x  
        myModel = Spider_Model(x)  
        s=myModel.Start()  
        myfile.write('\n\n=============糗事百科第%d頁=============\n' % x + s)  
    myfile.close()  
    print u'載入完畢！'  
    raw_input(u'按任意鍵退出...');
except:  
    print u'載入失敗！'

補充：python沒有大括號分塊，因此對縮排有嚴格的要求，注意[Tab]和[space]雖然都可以用單個前者代替幾個後者，但是在編譯時是不一樣的，如果你編輯器中對齊了還是有錯！要注意一下是不是這兩個鍵混用時不對。另為向檔案中輸入中文字元時要注意編碼，在程式碼前加上如下程式碼,否則會有亂碼

import sys
reload(sys)
sys.setdefaultencoding("utf-8")

Python爬取糗事百科段子
2018-08-31
Python
python爬蟲爬取糗事百科
2016-01-15
Python爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
python爬蟲十二：middlewares的使用，爬取糗事百科
2018-05-31
Python爬蟲
python爬取糗事百科
2018-08-14
Python
Python網路爬蟲（正則, 內涵段子，貓眼電影, 鏈家爬取）
2018-10-30
Python爬蟲
爬蟲內涵段子
2017-10-20
爬蟲
python爬蟲學習(1)-抓取糗事百科笑話
2017-02-10
Python爬蟲
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
python3.6.5 爬取糗事百科，開心一下
2018-07-10
Python
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲
2018-12-07
爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
python多執行緒爬去糗事百科
2018-04-03
Python執行緒
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python爬取內涵段子裡的段子
2021-09-09
Python
網路爬蟲精要
2019-04-27
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
Python使用多程式提高網路爬蟲的爬取速度
2019-02-01
Python爬蟲
python例項，python網路爬蟲爬取大學排名!
2018-11-20
Python爬蟲
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
爬蟲練習——爬取縱橫中文網
2020-10-19
爬蟲
Python爬蟲爬取美劇網站
2016-09-03
Python爬蟲網站
爬取網站前4_避免爬蟲陷阱
2017-05-19
網站爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
如何用Python網路爬蟲爬取網易雲音樂歌曲
2018-04-27
Python爬蟲
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁
使用webmagic爬蟲對百度百科進行簡單的爬取
2019-02-20
Web爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
傻傻的網路爬蟲
2010-01-10
爬蟲
網路爬蟲——爬百度貼吧
2015-12-28
爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
爬蟲之股票定向爬取
2018-12-06
爬蟲

網路爬蟲——爬取糗事百科笑料段子

相關文章