Python爬蟲入門(1):綜述

崔慶才發表於2015-04-25

大家好哈,最近博主在學習Python,學習期間也遇到一些問題,獲得了一些經驗,在此將自己的學習系統地整理下來,如果大家有興趣學習爬蟲的話,可以將這些文章作為參考,也歡迎大家一共分享學習經驗。

Python版本:2.7,Python 3請另尋其他博文。

首先爬蟲是什麼?

網路爬蟲(又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼。

根據我的經驗,要學習Python爬蟲,我們要學習的共有以下幾點:

  • Python基礎知識
  • Python中urllib和urllib2庫的用法
  • Python正規表示式
  • Python爬蟲框架Scrapy
  • Python爬蟲更高階的功能

1.Python基礎學習

首先,我們要用Python寫爬蟲,肯定要了解Python的基礎吧,萬丈高樓平地起,不能忘啦那地基,哈哈,那麼我就分享一下自己曾經看過的一些Python教程,小夥伴們可以作為參考。

1) 慕課網Python教程

曾經有一些基礎的語法是在慕課網上看的,上面附有一些練習,學習完之後可以作為練習,感覺效果還是蠻不錯的,不過稍微遺憾的是內容基本上都是最基礎的,入門開始的話,就這個吧

學習網址:慕課網Python教程

2) 廖雪峰Python教程

後來,我發現了廖老師的Python教程,講的那是非常通俗易懂哪,感覺也是非常不錯,大家如果想進一步瞭解Python就看一下這個吧。

學習網址:廖雪峰Python教程

3) 簡明Python教程

還有一個我看過的,簡明Python教程,感覺講的也不錯

學習網址:簡明Python教程

2.Python urllib和urllib2 庫的用法

urllib和urllib2庫是學習Python爬蟲最基本的庫,利用這個庫我們可以得到網頁的內容,並對內容用正規表示式提取分析,得到我們想要的結果。這個在學習過程中我會和大家分享的。

3.Python 正規表示式

Python正規表示式是一種用來匹配字串的強有力的武器。它的設計思想是用一種描述性的語言來給字串定義一個規則,凡是符合規則的字串,我們就認為它“匹配”了,否則,該字串就是不合法的。這個在後面的博文會分享的。

4.爬蟲框架Scrapy

如果你是一個Python高手,基本的爬蟲知識都已經掌握了,那麼就尋覓一下Python框架吧,我選擇的框架是Scrapy框架。這個框架有什麼強大的功能呢?下面是它的官方介紹:

HTML, XML源資料 選擇及提取 的內建支援
提供了一系列在spider之間共享的可複用的過濾器(即 Item Loaders),對智慧處理爬取資料提供了內建支援。
通過 feed匯出 提供了多格式(JSON、CSV、XML),多儲存後端(FTP、S3、本地檔案系統)的內建支援
提供了media pipeline,可以 自動下載 爬取到的資料中的圖片(或者其他資源)。
高擴充套件性。您可以通過使用 signals ,設計好的API(中介軟體, extensions, pipelines)來定製實現您的功能。
內建的中介軟體及擴充套件為下列功能提供了支援:
cookies and session 處理
HTTP 壓縮
HTTP 認證
HTTP 快取
user-agent模擬
robots.txt
爬取深度限制
針對非英語語系中不標準或者錯誤的編碼宣告, 提供了自動檢測以及健壯的編碼支援。
支援根據模板生成爬蟲。在加速爬蟲建立的同時,保持在大型專案中的程式碼更為一致。詳細內容請參閱 genspider 命令。
針對多爬蟲下效能評估、失敗檢測,提供了可擴充套件的 狀態收集工具 。
提供 互動式shell終端 , 為您測試XPath表示式,編寫和除錯爬蟲提供了極大的方便
提供 System service, 簡化在生產環境的部署及執行
內建 Web service, 使您可以監視及控制您的機器
內建 Telnet終端 ,通過在Scrapy程式中鉤入Python終端,使您可以檢視並且除錯爬蟲
Logging 為您在爬取過程中捕捉錯誤提供了方便
支援 Sitemaps 爬取
具有快取的DNS解析器

官方文件:http://doc.scrapy.org/en/latest/

等我們掌握了基礎的知識,再用這個 Scrapy 框架吧!

扯了這麼多,好像沒多少有用的東西額,那就不扯啦!

下面開始我們正式進入爬蟲之旅吧!

打賞支援我寫出更多好文章,謝謝!

打賞作者

打賞支援我寫出更多好文章,謝謝!

任選一種支付方式

Python爬蟲入門(1):綜述 Python爬蟲入門(1):綜述

相關文章