python爬蟲常見的那點問題!

千鋒武漢發表於2021-07-05

      python技術中最為津津樂道的技術就是爬蟲了,提到python爬蟲相信大家就算沒用過也有聽說過,今天小千就來給大家介紹一下關於python爬蟲的那點事,小白同學注意好好聽,拿好小本本記筆記啦。

      什麼是python爬蟲?

      網路爬蟲,英文名為Spider,又稱為網頁蜘蛛,網路機器人,在資料分析應用中,更多的將爬蟲稱為資料採集程式,是一種按照一定的規則,自動地抓取網路資訊的程式或者指令碼。

      原則上,只要是客戶端(瀏覽器)能做的事情,爬蟲都能夠做

      爬蟲也只能獲取客戶端(瀏覽器)所展示出來的資料

      網路中的資料可以是由web伺服器【Nginx/Apache】,資料庫服務【MySQL/Redis/MongoDB】,索引庫,大資料,影片/圖片庫,雲端儲存【阿里雲的OSS】等提供的,最主要的來源是Web伺服器

      不過,大家一定要注意哦,可爬取的資料必須是公開的,非盈利的,如:如果侵入人家非公開的網路,人家會透過ip定位到你,屬於違法行為的哦,再或者,一些理財的網站,如果爬取資料,肯定是不可以的,如果小夥伴們不聽話,非要去爬取,那任何人都是保護不了你的哦,狗頭保命~~~

      有名的爬蟲案件:簡歷大資料公司“巧達科技”被一鍋端、“車來了”涉嫌偷資料被警方立案等

      爬蟲都有哪幾種?

python培訓爬蟲分類

      通用爬蟲:

      通用網路爬蟲從網際網路中搜集網頁,採集資訊,這些網頁資訊決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響著搜尋引擎的效果

      大家要注意哦,通用爬蟲雖然簡單,方便,但是缺點也是顯而易見的,小助手給大家列舉了幾點,大家可以瞭解一下:

      1.通用搜尋引擎所返回的結果都是網頁,而大多情況下,網頁裡90%的內容對使用者來說都是無用的。

      2.不同領域、不同背景的使用者往往具有不同的檢索目的和需求,搜尋引擎無法提供針對具體某個使用者的搜尋結果。

      3.全球資訊網資料形式的豐富和網路技術的不斷髮展,圖片、資料庫、音訊、影片多媒體等不同資料大量出現,通用搜尋引擎對這些檔案無能為力,不能很好地發現和獲取。

      4.通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資訊提出的查詢,無法準確理解使用者的具體需求。

      聚焦爬蟲:

      聚焦爬蟲,是"面向特定主題需求"的一種網路爬蟲程式,它與通用搜尋引擎爬蟲的區別在於: 聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,儘量保證只抓取與需求相關的網頁資訊, 如12306搶票,或專門抓取某一個(某一類)網站資料

      1.根據是否以獲取資料為目的,可以分為:功能性爬蟲,給你喜歡的明星投票、點贊。資料增量爬蟲,比如招聘資訊

      2.根據url地址和對應的頁面內容是否改變,資料增量爬蟲可以分為:基於url地址變化、內容也隨之變化的資料增量爬蟲。url地址不變、內容變化的資料增量爬蟲

      爬蟲能幹什麼?

      1. 資料採集,比如:抓取微博評論(機器學習輿情監控)、抓取招聘網站的招聘資訊(資料分析、挖掘)、新浪滾動新聞、百度新聞網站

      2. 軟體測試:爬蟲之自動化測試

      自動化測試所必需的selenium . selenium是一個用於Web應用程式測試的工具,selenium 測試直接執行在瀏覽器中,就像真正的使用者在操作一樣。 支援的瀏覽器包括IE,chrome和Firefox等。其實就是藉助於selenium做爬蟲的事情。

      3. 搶票和投票

      4. 網路安全:簡訊轟炸、web漏洞掃描

      以上就是 關於python爬蟲的那點事了。想了解更多Python知識,歡迎關注小千喲!

      本文來自千鋒教育,轉載請註明出處。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31548651/viewspace-2779662/,如需轉載,請註明出處,否則將追究法律責任。

相關文章