使用python爬取百度百科
百度百科 是一部內容開 放、自由的網路百科全書,旨在創造一個涵蓋所有領域知識,服務所有網際網路使用者的中文知識性百科全書。在這裡你可以參與詞條編輯,分享貢獻你的知識。今天我們就使用 用python根據關鍵詞爬取百度百科的內容,只是單純的爬網頁資訊,有需要的可以參考借鑑。
抓取策略主要從以下幾個方面入手:
確定目標:確定抓取網站的哪些頁面的哪部分資料。本例項抓取百度百科python詞條頁面以及python相關詞條頁面的標題和簡介。
分析目標:主要是分析要抓取的url的格式,限定抓取範圍,還有就是分析網站的反爬措施,主要包括隨機ua,cookie,代理IP這些方面進行分析。
爬蟲程式執:進行資料抓取,在抓取過程中加入了代理IP,為了防止網站封IP。實現過程如下:
#! -*- encoding:utf-8 -*- import requests import random # 要訪問的目標頁面 targetUrl = " # 要訪問的目標HTTPS頁面 # targetUrl = " # 代理伺服器(產品官網 ) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗證資訊 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 設定 http和https訪問都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 設定IP切換頭 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
最後對爬取的資料進行分析,並製作出資料分析結果。這是一個簡單的資料爬蟲的過程,其中還有很多的問題需要我們在實際爬取中去解決。文中所以使用的代理由億牛雲提供,在爬蟲過程中對代理有需求的小夥伴可以去了解下他們家代理, 。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2904356/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python爬蟲爬取糗事百科Python爬蟲
- python爬取糗事百科Python
- 使用webmagic爬蟲對百度百科進行簡單的爬取Web爬蟲
- python爬蟲十二:middlewares的使用,爬取糗事百科Python爬蟲
- Python爬取糗事百科段子Python
- Python 爬取百度音樂Python
- 網路爬蟲——爬取糗事百科笑料段子爬蟲
- python3.6.5 爬取糗事百科,開心一下Python
- python爬蟲獲取百度熱搜Python爬蟲
- python學習值爬取百度翻譯Python
- 爬取百度貼吧實戰,python教你如何獲取Python
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- 百度VIP音樂爬取
- 使用 Python 爬取網站資料Python網站
- python多執行緒爬去糗事百科Python執行緒
- 如何使用python進行網頁爬取?Python網頁
- Python使用多程式提高網路爬蟲的爬取速度Python爬蟲
- Python 爬蟲入門 (二) 使用Requests來爬取圖片Python爬蟲
- python入門-爬取百度翻譯中的雙語例句Python
- Python爬蟲實戰-使用Scrapy框架爬取土巴兔(一)Python爬蟲框架
- python爬蟲學習(1)-抓取糗事百科笑話Python爬蟲
- 使用python爬取豆瓣電影TOP250Python
- 如何使用 python 爬取酷我線上音樂Python
- python 爬蟲 爬取 learnku 精華文章Python爬蟲
- python爬蟲——爬取大學排名資訊Python爬蟲
- python爬取網圖Python
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- Python爬蟲學習筆記(1)爬取知乎使用者資訊Python爬蟲筆記
- python爬蟲--爬取鏈家租房資訊Python爬蟲
- Python爬蟲爬取美劇網站Python爬蟲網站
- 百度地圖POI爬取寫入TXT地圖
- 使用Python進行Web爬取和資料提取PythonWeb
- 百度百科編寫收費真的嗎 百度百科編寫有代理嗎
- python 爬取 mc 皮膚Python
- Python爬取電影天堂Python
- Python《爬取IPhone各式桌布》PythoniPhone
- python爬取北京租房資訊Python
- [python爬蟲] Selenium爬取新浪微博內容及使用者資訊Python爬蟲