什麼是網路爬蟲?為什麼用Python寫爬蟲?

老男孩IT教育機構發表於2021-03-08

  很多人應該都聽說過網路爬蟲,也知道Python是網路爬蟲的首選程式語言,那麼什麼是網路爬蟲?為什麼寫爬蟲首選Python語言呢?我們一起來了解一下吧。

  什麼是網路爬蟲?

  網路爬蟲又稱為網頁蜘蛛、網路機器人,在FOAF社群中間,更經常被稱為網頁追逐者。它是一個自動提取網頁的程式,它為搜尋引擎從全球資訊網上下載網頁,是搜尋引擎的重要組成,傳統爬蟲從一個或若干個初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前網頁上抽取新的URL放入佇列,直到滿足系統的一定停止條件為止。

  網路爬蟲有什麼用?

  可以作為通用引擎網頁的收集器;

  做垂直搜尋引擎;

  科學研究:線上人類行為,線上社群演化,人類動力研究,計量社會學,複雜網路,資料探勘等領域都需要大量的資料,網路爬蟲是收集相關資料的利器。

  什麼語言可以寫爬蟲?

  C\C++。高效率、快速,適合通用搜尋引擎做全網爬取;缺點開發慢,寫起來又臭又長;

  指令碼語言。包含Perl、Python、Java、Ruby等,簡單易學,良好的文字處理能方便網頁內容的細緻提取。

  C#。資訊管理人員比較喜歡的語言。

  為什麼寫爬蟲喜歡用Python語言呢?

  1. 擁有各種爬蟲框架,方便高效的下載網頁;

  2. 多執行緒、程式模型成熟穩定,爬蟲是一個典型的多工處理場景,請求頁面時會有較長的延遲,總體來說更多的是等待;多執行緒和程式會更最佳化程式效率,提升整個系統下載和分析能力;

  3. GAE的支援,最初寫爬蟲的時候剛剛有GAC,而且只支援Python,利用GAE建立的爬蟲幾乎免費,最多的時候有近千個應用例項在工作;

  4. Python相關的庫也非常方便,比如request、jieba、redis、gevent、NLTK、pillow等,無論最簡單的爬蟲還是最複雜的爬蟲都能輕鬆搞定。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2761690/,如需轉載,請註明出處,否則將追究法律責任。

相關文章