Python爬蟲的基本概念、分類、學習路線以及爬取資料思路

嗨學程式設計發表於2019-01-03

原文網址 : https://juejin.im/post/5c2d78cef265da61477055cc

本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習Python。歡迎各位到來Python學習群：960410445一起討論視訊分享學習。Python是未來的發展方向，正在挑戰我們的分析能力及對世界的認知方式，因此，我們與時俱進，迎接變化，並不斷的成長，掌握Python核心技術，才是掌握真正的價值所在。

1. 為什麼要爬蟲?

“大資料時代”，資料獲取的方式：

大型企業公司有海量使用者，需要收集資料來提升產品體驗

【百度指數（搜尋），阿里指數（網購），騰訊資料（社交）】

資料管理諮詢公司：通過資料團隊專門提供大量資料，通過市場調查，問卷調查等

政府/機構提供的公開資料

中華人民共和國統計局

World bank

Nasdaq

第三方資料平臺購買資料

資料堂

貴陽大資料交易平臺

爬蟲資料

2. 什麼是爬蟲？

抓取網頁資料的程式

3. 爬蟲如何抓取網頁資料？

首先需要了解網頁的三大特徵：

每個網頁都有自己的URL（統一資源定位符）來定位

網頁都使用HTML(超文字標記語言)來描述頁面資訊

網頁都使用HTTP/HTTPS（超文字傳輸協議）來傳輸HTML資料

爬蟲的設計思路：

首先確定需要爬取的網URL地址

通過HTTP/HTTPS協議來獲取對應的HTML頁面

提取HTML頁面內有用的資料：

a. 如果是需要的資料--儲存

b. 如果有其他URL，繼續執行第二步

4. Python爬蟲的優勢？

5. 學習路線

抓取HTML頁面：

HTTP請求的處理： urllib, urlib2, requests

處理器的請求可以模擬瀏覽器傳送請求，獲取伺服器響應的檔案

解析伺服器相應的內容:

re, xpath, BeautifulSoup(bs4), jsonpath, pyquery等

使用某種描述性語言來給我們需要提取的資料定義一個匹配規則，符合這個規則的資料就會被匹配

採集動態HTML，驗證碼的處理

通用動態頁面採集： Selenium + PhantomJS:模擬真實瀏覽器載入JS

驗證碼處理: Tesseract機器學習庫，機器影象識別系統

Scrapy框架:

高定製性，高效能（非同步網路框架twisted）->資料下載快

提供了資料儲存，資料下載，提取規則等元件

分散式策略：

scrapy redis：在scarpy基礎上新增了以redis資料庫為核心的一套元件,主要在redis做請求指紋去重、請求分配、資料臨時儲存

爬蟲、反爬蟲、反反爬蟲之間的鬥爭:

User-Agent, 代理, 驗證碼, 動態資料載入, 加密資料

6. 爬蟲的分類

6.1 通用爬蟲:

1.定義： 搜尋引擎用的爬蟲系統

2.目標： 把所有網際網路的網頁爬取下來，放到本地伺服器形成備份，在對這些網頁做相關處理（提取關鍵字，去除廣告），最後提供一個使用者可以訪問的藉口

3.抓取流程：

a) 首先選取一部分已有的URL，把這些URL放到帶爬取佇列中

b) 從佇列中取出來URL，然後解析NDS得到主機IP，然後去這個IP對應的伺服器裡下載HTML頁面，儲存到搜尋引擎的本地伺服器裡，之後把爬過的URL放入已爬取佇列

c) 分析網頁內容，找出網頁裡其他的URL連線，繼續執行第二步，直到爬取結束

4.搜尋引擎如何獲取一個新網站的URL：

主動向搜尋引擎提交網址： ziyuan.baidu.com/linksubmit/…

在其他網站設定網站的外鏈：其他網站上面的友情連結

搜尋引擎會和DNS服務商進行合作，可以快速收錄新網站

5.通用爬蟲注意事項

通用爬蟲並不是萬物皆可以爬，它必須遵守規則：

Robots協議：協議會指明通用爬蟲可以爬取網頁的許可權

我們可以訪問不同網頁的Robots許可權

6.通用爬蟲通用流程：

7.通用爬蟲缺點

只能提供和文字相關的內容(HTML,WORD,PDF)等，不能提供多媒體檔案(msic,picture, video)及其他二進位制檔案

提供結果千篇一律，不能針對不同背景領域的人聽不同的搜尋結果

不能理解人類語義的檢索

聚焦爬蟲的優勢所在

DNS 域名解析成IP: 通過在命令框中輸入ping www.baidu.com，得到伺服器的IP

6.2 聚焦爬蟲：

爬蟲程式設計師寫的針對某種內容的爬蟲-> 面向主題爬蟲，面向需要爬蟲

【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
Python爬蟲（1.爬蟲的基本概念）
2018-04-20
Python爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
Python爬蟲學習線路圖丨Python爬蟲需要掌握哪些知識點
2018-12-10
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
python例項，python網路爬蟲爬取大學排名!
2018-11-20
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
python爬蟲學習01--電子書爬取
2020-07-13
Python爬蟲
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
爬蟲的分類
2023-12-01
爬蟲
Python爬蟲入門學習線路圖2019最新版（附Python爬蟲視訊教程）
2019-01-09
Python爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
Python網路爬蟲第三彈《爬取get請求的頁面資料》
2018-09-14
Python爬蟲
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
python爬蟲是什麼？爬蟲可以分為哪幾類？
2022-11-29
Python爬蟲
python爬蟲是什麼?學習python爬蟲難嗎
2021-03-31
Python爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
python爬蟲學習1
2020-11-29
Python爬蟲
Python使用多程式提高網路爬蟲的爬取速度
2019-02-01
Python爬蟲
Python爬蟲 | 一條高效的學習路徑
2021-09-09
Python爬蟲
11.18爬蟲學習（BeautifulSoup類）
2024-11-18
爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
從零基礎開始學習Python爬蟲你需要注意的點以及如何學習爬蟲
2019-01-02
Python爬蟲
Python爬蟲初學二（網路資料採集）
2020-05-03
Python爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
Python爬蟲學習筆記（三、儲存資料）
2020-10-03
Python爬蟲筆記
【python爬蟲案例】利用python爬取豆瓣讀書評分TOP250排行資料
2024-09-20
Python爬蟲
什麼是爬蟲?學習Python爬蟲難不難?
2019-11-05
爬蟲Python
好程式設計師Python學習路線之python爬蟲入門
2019-08-14
程式設計師Python爬蟲

Python爬蟲的基本概念、分類、學習路線以及爬取資料思路

相關文章