使用python爬取百度百科

mmz_77發表於2022-07-05

百度百科 是一部內容開 放、自由的網路百科全書,旨在創造一個涵蓋所有領域知識,服務所有網際網路使用者的中文知識性百科全書。在這裡你可以參與詞條編輯,分享貢獻你的知識。今天我們就使用 用python根據關鍵詞爬取百度百科的內容,只是單純的爬網頁資訊,有需要的可以參考借鑑。

抓取策略主要從以下幾個方面入手:

確定目標:確定抓取網站的哪些頁面的哪部分資料。本例項抓取百度百科python詞條頁面以及python相關詞條頁面的標題和簡介。

分析目標:主要是分析要抓取的url的格式,限定抓取範圍,還有就是分析網站的反爬措施,主要包括隨機ua,cookie,代理IP這些方面進行分析。

爬蟲程式執:進行資料抓取,在抓取過程中加入了代理IP,為了防止網站封IP。實現過程如下:

 #! -*- encoding:utf-8 -*-
    import requests
    import random
    # 要訪問的目標頁面
    targetUrl = "
    # 要訪問的目標HTTPS頁面
    # targetUrl = "
    # 代理伺服器(產品官網 )
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理驗證資訊
    proxyUser = "username"
    proxyPass = "password"
    proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
        "host" : proxyHost,
        "port" : proxyPort,
        "user" : proxyUser,
        "pass" : proxyPass,
    }
    # 設定 http和https訪問都是用HTTP代理
    proxies = {
        "http"  : proxyMeta,
        "https" : proxyMeta,
    }
    #  設定IP切換頭
    tunnel = random.randint(1,10000)
    headers = {"Proxy-Tunnel": str(tunnel)}
    resp = requests.get(targetUrl, proxies=proxies, headers=headers)
    print resp.status_code
    print resp.text

最後對爬取的資料進行分析,並製作出資料分析結果。這是一個簡單的資料爬蟲的過程,其中還有很多的問題需要我們在實際爬取中去解決。文中所以使用的代理由億牛雲提供,在爬蟲過程中對代理有需求的小夥伴可以去了解下他們家代理,


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2904356/,如需轉載,請註明出處,否則將追究法律責任。

相關文章