python技術中最為津津樂道的技術就是爬蟲了，提到python爬蟲相信大家就算沒用過也有聽說過，今天小千就來給大家介紹一下關於python爬蟲的那點事，小白同學注意好好聽，拿好小本本記筆記啦。

什麼是python爬蟲？

網路爬蟲，英文名為Spider,又稱為網頁蜘蛛，網路機器人，在資料分析應用中，更多的將爬蟲稱為資料採集程式，是一種按照一定的規則，自動地抓取網路資訊的程式或者指令碼。

原則上,只要是客戶端(瀏覽器)能做的事情，爬蟲都能夠做

爬蟲也只能獲取客戶端(瀏覽器)所展示出來的資料

網路中的資料可以是由web伺服器【Nginx/Apache】，資料庫服務【MySQL/Redis/MongoDB】，索引庫，大資料，影片/圖片庫，雲端儲存【阿里雲的OSS】等提供的,最主要的來源是Web伺服器

不過，大家一定要注意哦，可爬取的資料必須是公開的，非盈利的，如：如果侵入人家非公開的網路，人家會透過ip定位到你，屬於違法行為的哦，再或者，一些理財的網站，如果爬取資料，肯定是不可以的，如果小夥伴們不聽話，非要去爬取，那任何人都是保護不了你的哦，狗頭保命~~~

有名的爬蟲案件：簡歷大資料公司“巧達科技”被一鍋端、“車來了”涉嫌偷資料被警方立案等

爬蟲都有哪幾種？

python培訓爬蟲分類

通用爬蟲：

通用網路爬蟲從網際網路中搜集網頁，採集資訊，這些網頁資訊決定著整個引擎系統的內容是否豐富，資訊是否即時，因此其效能的優劣直接影響著搜尋引擎的效果

大家要注意哦，通用爬蟲雖然簡單，方便，但是缺點也是顯而易見的，小助手給大家列舉了幾點，大家可以瞭解一下：

1.通用搜尋引擎所返回的結果都是網頁，而大多情況下，網頁裡90%的內容對使用者來說都是無用的。

2.不同領域、不同背景的使用者往往具有不同的檢索目的和需求，搜尋引擎無法提供針對具體某個使用者的搜尋結果。

3.全球資訊網資料形式的豐富和網路技術的不斷髮展，圖片、資料庫、音訊、影片多媒體等不同資料大量出現，通用搜尋引擎對這些檔案無能為力，不能很好地發現和獲取。

4.通用搜尋引擎大多提供基於關鍵字的檢索，難以支援根據語義資訊提出的查詢，無法準確理解使用者的具體需求。

聚焦爬蟲：

聚焦爬蟲，是"面向特定主題需求"的一種網路爬蟲程式，它與通用搜尋引擎爬蟲的區別在於：聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選，儘量保證只抓取與需求相關的網頁資訊, 如12306搶票，或專門抓取某一個（某一類）網站資料

1.根據是否以獲取資料為目的，可以分為：功能性爬蟲，給你喜歡的明星投票、點贊。資料增量爬蟲，比如招聘資訊

2.根據url地址和對應的頁面內容是否改變，資料增量爬蟲可以分為：基於url地址變化、內容也隨之變化的資料增量爬蟲。url地址不變、內容變化的資料增量爬蟲

爬蟲能幹什麼？

1. 資料採集,比如：抓取微博評論(機器學習輿情監控)、抓取招聘網站的招聘資訊(資料分析、挖掘)、新浪滾動新聞、百度新聞網站

2. 軟體測試：爬蟲之自動化測試

自動化測試所必需的selenium . selenium是一個用於Web應用程式測試的工具,selenium 測試直接執行在瀏覽器中,就像真正的使用者在操作一樣。支援的瀏覽器包括IE,chrome和Firefox等。其實就是藉助於selenium做爬蟲的事情。

3. 搶票和投票

4. 網路安全：簡訊轟炸、web漏洞掃描

以上就是關於python爬蟲的那點事了。想了解更多Python知識，歡迎關注小千喲！

本文來自千鋒教育，轉載請註明出處。

python爬蟲常見的那點問題！

相關文章