python爬蟲常見的那點問題!
python技術中最為津津樂道的技術就是爬蟲了,提到python爬蟲相信大家就算沒用過也有聽說過,今天小千就來給大家介紹一下關於python爬蟲的那點事,小白同學注意好好聽,拿好小本本記筆記啦。
什麼是python爬蟲?
網路爬蟲,英文名為Spider,又稱為網頁蜘蛛,網路機器人,在資料分析應用中,更多的將爬蟲稱為資料採集程式,是一種按照一定的規則,自動地抓取網路資訊的程式或者指令碼。
原則上,只要是客戶端(瀏覽器)能做的事情,爬蟲都能夠做
爬蟲也只能獲取客戶端(瀏覽器)所展示出來的資料
網路中的資料可以是由web伺服器【Nginx/Apache】,資料庫服務【MySQL/Redis/MongoDB】,索引庫,大資料,影片/圖片庫,雲端儲存【阿里雲的OSS】等提供的,最主要的來源是Web伺服器
不過,大家一定要注意哦,可爬取的資料必須是公開的,非盈利的,如:如果侵入人家非公開的網路,人家會透過ip定位到你,屬於違法行為的哦,再或者,一些理財的網站,如果爬取資料,肯定是不可以的,如果小夥伴們不聽話,非要去爬取,那任何人都是保護不了你的哦,狗頭保命~~~
有名的爬蟲案件:簡歷大資料公司“巧達科技”被一鍋端、“車來了”涉嫌偷資料被警方立案等
爬蟲都有哪幾種?
通用爬蟲:
通用網路爬蟲從網際網路中搜集網頁,採集資訊,這些網頁資訊決定著整個引擎系統的內容是否豐富,資訊是否即時,因此其效能的優劣直接影響著搜尋引擎的效果
大家要注意哦,通用爬蟲雖然簡單,方便,但是缺點也是顯而易見的,小助手給大家列舉了幾點,大家可以瞭解一下:
1.通用搜尋引擎所返回的結果都是網頁,而大多情況下,網頁裡90%的內容對使用者來說都是無用的。
2.不同領域、不同背景的使用者往往具有不同的檢索目的和需求,搜尋引擎無法提供針對具體某個使用者的搜尋結果。
3.全球資訊網資料形式的豐富和網路技術的不斷髮展,圖片、資料庫、音訊、影片多媒體等不同資料大量出現,通用搜尋引擎對這些檔案無能為力,不能很好地發現和獲取。
4.通用搜尋引擎大多提供基於關鍵字的檢索,難以支援根據語義資訊提出的查詢,無法準確理解使用者的具體需求。
聚焦爬蟲:
聚焦爬蟲,是"面向特定主題需求"的一種網路爬蟲程式,它與通用搜尋引擎爬蟲的區別在於: 聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,儘量保證只抓取與需求相關的網頁資訊, 如12306搶票,或專門抓取某一個(某一類)網站資料
1.根據是否以獲取資料為目的,可以分為:功能性爬蟲,給你喜歡的明星投票、點贊。資料增量爬蟲,比如招聘資訊
2.根據url地址和對應的頁面內容是否改變,資料增量爬蟲可以分為:基於url地址變化、內容也隨之變化的資料增量爬蟲。url地址不變、內容變化的資料增量爬蟲
爬蟲能幹什麼?
1. 資料採集,比如:抓取微博評論(機器學習輿情監控)、抓取招聘網站的招聘資訊(資料分析、挖掘)、新浪滾動新聞、百度新聞網站
2. 軟體測試:爬蟲之自動化測試
自動化測試所必需的selenium . selenium是一個用於Web應用程式測試的工具,selenium 測試直接執行在瀏覽器中,就像真正的使用者在操作一樣。 支援的瀏覽器包括IE,chrome和Firefox等。其實就是藉助於selenium做爬蟲的事情。
3. 搶票和投票
4. 網路安全:簡訊轟炸、web漏洞掃描
以上就是 關於python爬蟲的那點事了。想了解更多Python知識,歡迎關注小千喲!
本文來自千鋒教育,轉載請註明出處。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31548651/viewspace-2779662/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python爬蟲程式設計常見問題解決方法Python爬蟲程式設計
- 網路爬蟲編寫常見問題爬蟲
- 爬蟲常見問題及解決方式爬蟲
- 【彙總】Python爬蟲常見面試題!Python爬蟲面試題
- 網路爬蟲常見問題(個人總結)爬蟲
- 導致Python爬蟲封禁的常見原因Python爬蟲
- 什麼是Python網路爬蟲?常見的網路爬蟲有哪些?Python爬蟲
- Python爬蟲亂碼問題Python爬蟲
- 初學python的常見問題Python
- 爬蟲中代理IP的常見方案爬蟲
- 常見的三種反爬蟲措施爬蟲
- Python面試常見問題Python面試
- 網路爬蟲之關於爬蟲 http 代理的常見使用方式爬蟲HTTP
- 常見的爬蟲型別有什麼?爬蟲型別
- Python學習常見問題分享!Python
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- 常見網站反爬蟲的解決措施網站爬蟲
- python爬蟲如何爬知乎的話題?Python爬蟲
- Python爬蟲教程-10-UserAgent和常見瀏覽器UA值Python爬蟲瀏覽器
- 常見問題
- Python網路抓取的三個常見問題Python
- Python小白的爬蟲問題與解決(含程式碼)Python爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- Python爬蟲入門,8個常用爬蟲技巧盤點Python爬蟲
- Python爬蟲面試題分享!這三點很重要Python爬蟲面試題
- 如何利用ip住宅代理解決python爬蟲遇到反爬措施的問題?Python爬蟲
- Python爬蟲一般會用到什麼框架?常見框架推薦!Python爬蟲框架
- 求職面試常見問題:Python常見面試題全解析附答案求職Python面試題
- Python程式設計常見問題與解答Python程式設計
- 反爬蟲的四種常見方式-JS逆向方法論爬蟲JS
- 寫爬蟲時常見的五種字串編碼特徵爬蟲字串編碼特徵
- 常見的反爬蟲措施與應對方法介紹爬蟲
- 爬蟲抓取網路資料時經常遇到的六種問題爬蟲
- 爬蟲程式最佳化要點—附Python爬蟲影片教程爬蟲Python
- 關於爬蟲工具 colly 的問題爬蟲
- 爬蟲過程中遇到的問題爬蟲
- js常見問題JS
- Homestead 常見問題