Python爬蟲知識點一

LHBlog發表於2017-11-15

原文網址 : https://www.cnblogs.com/LHWorldBlog/p/7836604.html

一。入門知識：

1.1.HTTP簡介
HTTP = HyperText Transfer Protocol
URI = Uniform Resource Identifier
URL = Uniform Resource Locator
URI和URL的區別：URI強調的是資源，而URL強調的是資源的位置。
1.2常用請求型別
OPTIONS: 返回伺服器針對特定資源所支援的http請求方法。
HEAD: 向伺服器索要與get請求相一致的響應，只不過響應體將不會被返回。
GET: 向特定資源發出請求
PUT: 向指定資源位置上傳其最新內容
POST: 向指定資源提交資料進行處理請求
DELETE: 請求伺服器刪除指定URI所標識的資源
PATCH: 用來將區域性修改應用於某一資源
1.3HTTP常見狀態碼
200/OK：請求成功
201/Created: 請求已被實現，且一個新資源已根據請求被建立，URI跟隨Location頭資訊返回。
202/Accepted: 伺服器已接受請求，但尚未處理。
400/Bad Request: 請求無法被伺服器理解
401/Unauthorized: 當前請求需要使用者驗證
403/Forbidden: 伺服器已理解請求，但拒絕執行。
404/Not Found

1.4 爬蟲框架介紹
第一步：將種子URL放入佇列
第二步：從佇列中獲取URL，抓取內容。
第三步：解析抓取內容，將需要進一步抓取的URL放入工作佇列，儲存解析後的內容
1.5 抓取策略
深度優先：舉例先完成專題一的所有內容，再完成專題二的所有內容。

廣度優先
PageRank
大站優先策略舉例：根據網站的Pr順序指定優先順序

1.6 如何去重
Hash表
bloom過濾器

1.7 爬蟲質量標準

分散式
可伸縮性
效能和有效性
質量
新鮮性
更新
可擴充套件性

二。程式碼實施

import requests
import xml.etree.ElementTree as ET
from xml.parsers.expat import ParserCreate


class DefaultSaxHandler(object):
    def __init__(self, provinces):
        self.provinces = provinces

    # 處理標籤開始
    def start_element(self, name, attrs):
        if name != 'map':
            name = attrs['title']
            number = attrs['href']
            self.provinces.append((name, number))

    # 處理標籤結束
    def end_element(self, name):
        pass

    # 文字處理
    def char_data(self, text):
        pass


def get_province_entry(url):
    # 獲取文字，並用gb2312解碼
    content = requests.get(url).content.decode('gb2312')
    # 確定要查詢字串的開始結束位置，並用切片獲取內容。
    start = content.find('<map name=\"map_86\" id=\"map_86\">')
    end = content.find('</map>')
    content = content[start:end + len('</map>')].strip()
    print(content)
    provinces = []
    # 生成Sax處理器
    handler = DefaultSaxHandler(provinces)
    # 初始化分析器
    parser = ParserCreate()
    parser.StartElementHandler = handler.start_element
    parser.EndElementHandler = handler.end_element
    parser.CharacterDataHandler = handler.char_data
    # 解析資料
    parser.Parse(content)
    # 結果字典為每一頁的入口程式碼
    return provinces


provinces = get_province_entry('http://www.ip138.com/post')
print(provinces)

結果如下：

Ps: start方法中判斷不等於map標籤的即為area標籤然後選取href title屬性對應的值即可

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

Python爬蟲學習線路圖丨Python爬蟲需要掌握哪些知識點
2018-12-10
Python爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
Python爬蟲筆記（一）——基礎知識簡單整理
2018-07-08
Python爬蟲筆記
Python相關爬蟲的框架有哪些?Python知識
2020-09-24
Python爬蟲框架
爬蟲基礎知識
2023-03-15
爬蟲
Python爬蟲需要了解的代理IP知識
2023-04-04
Python爬蟲
Python爬蟲需要學哪些東西？這些知識點必須掌握！
2021-05-25
Python爬蟲
Python知識點（一）
2019-02-26
Python
逆向爬蟲知識學習
2022-03-21
爬蟲
零基礎入門學習Python爬蟲必備的知識點！
2018-09-26
Python爬蟲
python爬蟲之Beautiful Soup基礎知識+例項
2020-08-12
Python爬蟲
python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
【爬蟲】第一章-Web基礎知識
2024-04-02
爬蟲Web
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲
學Python爬蟲哪個機構好一點?
2019-12-10
Python爬蟲
爬蟲程式最佳化要點—附Python爬蟲影片教程
2020-10-15
爬蟲Python
用python爬取知識星球
2019-02-16
Python
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲從入門到精通系列──第1課基礎知識
2019-01-17
Python爬蟲
帶你入門Python爬蟲，8個常用爬蟲技巧盤點
2018-08-06
Python爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python知識點（二）
2019-02-26
Python
python就是爬蟲嗎-python就是爬蟲嗎
2020-10-29
Python爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
爬蟲必須得會的預備知識
2019-04-05
爬蟲
爬蟲開發知識入門基礎（1）
2020-06-22
爬蟲
爬蟲之前需要先了解哪些專業知識？
2021-09-11
爬蟲
python 爬蟲
2024-04-20
Python爬蟲
python爬蟲
2024-06-13
Python爬蟲
爬蟲初識
2024-07-13
爬蟲
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
爬蟲必學知識之正規表示式上篇
2018-03-18
爬蟲
學 Java 網路爬蟲，需要哪些基礎知識？
2021-09-09
Java爬蟲
初識python必知的6個知識點
2022-04-29
Python

Python爬蟲知識點一

相關文章