貼吧小試牛刀

weixin_34075551發表於2018-03-26

原文網址 : https://blog.csdn.net/weixin_34075551/article/details/87471589

#!/usr/bin/env python

# -*- coding:utf-8 -*-

import urllib

import urllib2

def loadPage(url, filename):

"""

作用：根據url傳送請求，獲取伺服器響應檔案

url: 需要爬取的url地址

filename : 處理的檔名

"""

print "正在下載 " + filename

headers = {"User-Agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}

request = urllib2.Request(url, headers = headers)

return urllib2.urlopen(request).read()

def writePage(html, filename):

"""

作用：將html內容寫入到本地

html：伺服器相應檔案內容

"""

print "正在儲存 " + filename

# 檔案寫入

with open(filename, "w") as f:

f.write(html)

print "-" * 30

def tiebaSpider(url, beginPage, endPage):

"""

作用：貼吧爬蟲排程器，負責組合處理每個頁面的url

url : 貼吧url的前部分

beginPage : 起始頁

endPage : 結束頁

"""

for page in range(beginPage, endPage + 1):

pn = (page - 1) * 50

filename = "第" + str(page) + "頁.html"

fullurl = url + "&pn=" + str(pn)

#print fullurl

html = loadPage(fullurl, filename)

#print html

writePage(html, filename)

print "謝謝使用"

if __name__ == "__main__":

kw = raw_input("請輸入需要爬取的貼吧名:")

beginPage = int(raw_input("請輸入起始頁："))

endPage = int(raw_input("請輸入結束頁："))

url = "http://tieba.baidu.com/f?"

key = urllib.urlencode({"kw": kw})

fullurl = url + key

tiebaSpider(fullurl, beginPage, endPage)

Celery：小試牛刀
2021-03-09
vite plugins小試牛刀
2024-08-10
VitePlugin
nodejs redis 小試牛刀
2024-10-25
NodeJSRedis
Jena ARQ小試牛刀
2018-04-14
第2章牛刀小試
2018-11-12
spring篇（一）牛刀小試
2020-10-20
Spring
ElasticSearch學習一-小試牛刀
2019-03-03
Elasticsearch
Java11 HttpClient小試牛刀
2019-03-04
JavaHTTPclient
分散式鎖--Redis小試牛刀
2018-08-09
分散式Redis
Jmeter介面測試例項-牛刀小試
2019-07-14
JMeter
Laravel 事件系統（一）、小試牛刀
2018-09-03
Laravel事件
Vue.js 牛刀小試（持續更新~~~）
2018-08-28
Vue.js
python定時任務之小試牛刀
2024-11-25
Python
Abp小試牛刀之圖片上傳
2020-12-27
python小試牛刀： K-best演算法
2020-11-04
Python演算法
【小試牛刀】Stage-2 裝飾器初探
2019-01-31
小試牛刀ElasticSearch大資料聚合統計
2021-01-21
Elasticsearch大資料
constraintayout新功能montionLayout寫動畫小試牛刀
2020-12-31
AI動畫
Golang框架Beego在Windows環境下小試牛刀
2018-09-17
Golang框架Windows
Golang框架beego電影網爬蟲小試牛刀
2018-09-25
Golang框架爬蟲
【小白學PyTorch】8 實戰之MNIST小試牛刀
2020-09-09
PyTorch
百度貼吧賬號小號高等級高吧齡價美物廉
2024-04-20
Flink Restart Strategies重啟策略機制深入剖析-Flink牛刀小試
2019-03-01
REST
現代IT基礎設施管理（1）：Terraform初識和小試牛刀
2024-11-11
ORM
段友福利：Python爬取段友之家貼吧圖片和小視訊
2018-06-01
Python
百度貼吧怎麼儲存看過的影片？百度貼吧儲存影片的方法
2020-12-30
《流浪地球 2》 Deepfake 小試牛刀，45+ 吳京「被」年輕，變身 21 歲小鮮肉
2023-01-30
小總結吧
2021-04-16
百度貼吧怎麼儲存看過的視訊？百度貼吧儲存視訊的方法
2020-12-30
【Vue.js 牛刀小試】03：第三章 - 事件修飾符的使用
2018-11-02
Vue.js事件
【Vue.js 牛刀小試】01：第一章 - 一些基礎概念
2018-10-31
Vue.js
Flink 狀態管理與checkPoint資料容錯機制深入剖析-Flink牛刀小試
2018-11-24
Flink CheckPoint狀態點恢復與savePoint機制對比剖析-Flink牛刀小試
2018-11-25
【Vue.js 牛刀小試】05：第五章 - 計算屬性與監聽器
2018-11-08
Vue.js
Flink Window分析及Watermark解決亂序資料機制深入剖析-Flink牛刀小試
2019-03-04
【Vue.js 牛刀小試】05：第五章 – 計算屬性與監聽器
2019-03-04
Vue.js
Flink 叢集執行原理兼部署及Yarn執行模式深入剖析-Flink牛刀小試
2019-03-04
Yarn模式
【Cron表示式】小貼士
2024-05-16

貼吧小試牛刀

相關文章