網路爬蟲——爬百度貼吧

life4711發表於2015-12-28

原文網址 : https://blog.csdn.net/lvshubao1314/article/details/50421569

功能：輸入話題的編號（一般在百度貼吧裡面找）然後爬取樓主的所有發言的文字部分。

說明：中文編碼和儲存檔案較上一篇又有新的方式，特此留存。

#coding: utf-8  
import string
import urllib2
import re

class HTML_Tool:#作用就是將html檔案裡的一些標籤去掉，只保留文字部分
	BgnCharToNoneRex = re.compile("(\t|\n| |<a.*?>|<img.*?>)")
	EndCharToNoneRex = re.compile("<.*?>")
	BgnPartRex = re.compile("<p.*?>")
	CharToNewLineRex = re.compile("<br/>|</p>|<tr>|<div>|</div>")
	CharToNextTabRex = re.compile("<td>")
	
	def Replace_Char(self,x):
		x=self.BgnCharToNoneRex.sub("",x)
		x=self.BgnPartRex.sub("\n   ",x)
		x=self.CharToNewLineRex.sub("\n",x)
		x=self.CharToNextTabRex.sub("\t",x)
		x=self.EndCharToNoneRex.sub("",x)
		return x
		
class Baidu_Spider:
	def __init__(self,url):
		self.myUrl=url+'?see_lz=1'
		self.datas = []
		self.myTool = HTML_Tool()
		print u'已經啟動百度貼吧爬蟲'
	def baidu_tieba(self):
		#在做編碼轉換時，通常需要以unicode作為中間編碼
		#即先將其他編碼的字串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼
		myPage = urllib2.urlopen(self.myUrl).read().decode("utf-8")#decode的作用是將其他編碼的字串轉換成unicode編碼
		endPage = self.page_counter(myPage)
		title = self.find_title(myPage)
		print u'文章名稱: '+title
		self.save_data(self.myUrl,title,endPage)
	
	def page_counter(self,myPage):
		myMatch = re.search(r'class="red">(\d+?)</span>',myPage,re.S)
		if myMatch:
			endPage = int(myMatch.group(1))
			print u'爬蟲報告：發現樓主共有%d頁的原創內容' % endPage
		else:
			endPage = 0
			print u'爬蟲報告： 無法計算樓主釋出的內容有多少頁！'
		return endPage
	def find_title(self,myPage):
		myMatch = re.search(r'<h1.*?>(.*?)</h1>',myPage,re.S)
		title = u'暫無標題'
		if myMatch:
			title = myMatch.group(1)
		else: 
			print u'爬蟲報告：無法載入文章標題！'
		title = title.replace('\\','').replace('/','').replace(':','').replace('?','').replace('>','').replace('<','').replace("|",'')
		return title
	def save_data(self,url,title,endPage):
		self.get_data(url,endPage)
		f = open(title+'.txt','w+')
		f.writelines(self.datas)
		f.close()
		print u'爬蟲報告：檔案以及下載到本地並打包成txt檔案'
		print u'載入完成，按任意鍵退出...'
		raw_input();
		
	def get_data(self,url,endPage):
		url = url + '&pn='
		for i in range(1,endPage+1):
			print u'爬蟲報告：爬蟲%d號正在載入中...' % i
			myPage = urllib2.urlopen(url + str(i)).read()
			self.deal_data(myPage.decode('utf-8'))
	def deal_data(self,myPage):
		myItems = re.findall('id="post_content.*?>(.*?)</div>',myPage,re.S)
		for item in myItems:
			data = self.myTool.Replace_Char(item.replace("\n","").encode('utf-8'))
			self.datas.append(data+'\n')
			#self.datas.append(item.replace("\n","").encode('utf-8')+'\n')
print u'請輸入貼吧地址最後的字串： '
bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'htttp://tieba.baidu.com/p/'))

mySpider = Baidu_Spider(bdurl)
mySpider.baidu_tieba()

後記：學了一週多的爬蟲，把《python學習手冊》大體翻了一遍，感覺對Python語言的基礎瞭解一些了。至於爬蟲程式，參照大神的部落格，依樣畫葫蘆也算是實現了兩個小爬蟲。時間不允許了，我也不準備深究了，以後用到再擴充吧！

網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
網路爬蟲
2018-12-07
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
網路爬蟲的原理
2018-12-02
爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
爬取百度貼吧實戰，python教你如何獲取
2020-12-07
Python
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
什麼是網路爬蟲
2018-12-02
爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
網路爬蟲流程總結
2023-03-09
爬蟲
網路爬蟲如何運作？
2022-02-08
爬蟲
python網路爬蟲合法嗎
2021-09-11
Python爬蟲
網路爬蟲的反扒策略
2021-09-11
爬蟲
什麼是網路爬蟲？
2022-12-09
爬蟲
網路爬蟲是什麼？
2022-05-25
爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
手把手教你寫網路爬蟲（2）：迷你爬蟲架構
2018-04-27
爬蟲架構
什麼是網路爬蟲?為什麼用Python寫爬蟲?
2021-03-08
爬蟲Python
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
Golang 網路爬蟲框架gocolly/colly
2019-01-15
Golang爬蟲框架
網路爬蟲開發常用框架
2019-02-27
爬蟲框架

網路爬蟲——爬百度貼吧

相關文章