Python的Scrapy定製網路爬蟲

jieforest發表於2013-01-20

原文網址 : http://blog.itpub.net/301743/viewspace-752949/

網路爬蟲（Web Crawler, Spider）就是一個在網路上亂爬的機器人。當然它通常並不是一個實體的機器人，因為網路本身也是虛擬的東西，所以這個“機器人”其實也就是一段程式，並且它也不是亂爬，而是有一定目的的，並且在爬行的時候會蒐集一些資訊。

例如 Google 就有一大堆爬蟲會在 Internet 上搜集網頁內容以及它們之間的連結等資訊；又比如一些別有用心的爬蟲會在 Internet 上搜集諸如 foo@bar.com 或者 foo [at] bar [dot] com 之類的東西。除此之外，還有一些定製的爬蟲，專門針對某一個網站，還有諸如小眾軟體或者 LinuxToy 這樣的網站也經常被整個站點 crawl 下來，換個名字掛出來。

其實爬蟲從基本原理上來講很簡單，只要能訪問網路和分析 Web 頁面即可，現在大部分語言都有方便的 Http 客戶端庫可以抓取 Web 頁面，而 HTML 的分析最簡單的可以直接用正規表示式來做，因此要做一個最簡陋的網路爬蟲實際上是一件很簡單的事情。不過要實現一個高質量的 spider 卻是非常難的。

爬蟲的兩部分：

一是下載 Web 頁面，有許多問題需要考慮，如何最大程度地利用本地頻寬，如何排程針對不同站點的 Web 請求以減輕對方伺服器的負擔等。

一個高效能的 Web Crawler 系統裡，DNS 查詢也會成為急需優化的瓶頸。

另外，還有一些“行規”需要遵循（例如 robots.txt）。而獲取了網頁之後的分析過程也是非常複雜的，Internet 上的東西千奇百怪，各種錯誤百出的 HTML 頁面都有，要想全部分析清楚幾乎是不可能的事；
另外，隨著 AJAX 的流行，如何獲取由 Javascript. 動態生成的內容成了一大難題；

除此之外，Internet 上還有有各種有意或無意出現的Spider Trap ，如果盲目的跟蹤超連結的話，就會陷入 Trap 中萬劫不復了，例如這個網站，據說是之前 Google 宣稱 Internet 上的 Unique URL 數目已經達到了 1 trillion 個，因此這個人 is proud to announce the second trillion 。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/301743/viewspace-752949/，如需轉載，請註明出處，否則將追究法律責任。

python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python DHT網路爬蟲
2019-02-14
Python爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
Python爬蟲教程-33-scrapy shell 的使用
2018-09-06
Python爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
python網路爬蟲合法嗎
2021-09-11
Python爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
《Python3網路爬蟲開發實戰》PDF+原始碼+《精通Python爬蟲框架Scrapy》中英文PDF原始碼...
2018-12-23
Python爬蟲原始碼框架
手把手教你寫網路爬蟲（4）：Scrapy入門
2018-05-05
爬蟲
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
利用scrapy建立初始Python爬蟲專案
2018-03-04
Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
python網路爬蟲--專案實戰--scrapy嵌入selenium，晶片廠級聯評論爬取（6）
2020-10-23
Python爬蟲晶片

Python的Scrapy定製網路爬蟲

相關文章