網路爬蟲

ClintonZero發表於2018-12-07

1.什麼是網路爬蟲

網路爬蟲是按照一定規則自動的抓取全球資訊網資訊的程式或指令碼。通俗理解的話網路爬蟲是一個模擬人類請求網站行為的程式。可以自動請求網頁、抓取特定資料,然後使用一定規則提取有價值的資料。
網路爬蟲按照功能來分類的話主要分為四類:通用網路爬蟲、聚焦網路爬蟲、增量式網路爬蟲、深層網路爬蟲。
通用網路爬蟲
通用爬蟲又稱全網爬蟲,爬行物件從一些種子 URL 擴充到整個 Web,通用爬蟲是搜尋引擎重要的組成部分之一,如(百度、谷歌、搜狗等)。主要是將網際網路上網頁下載到本地,形成網際網路內容的映象備份。
聚焦網路爬蟲
聚焦網路爬蟲又稱主題網路爬蟲,是面向特定需求的一種網路爬蟲程式,他與通用爬蟲的區別在於:聚焦爬蟲在實施網頁抓取的時候會對內容進行篩選和處理,儘量保證只抓取與需求相關的網頁資訊。例如:爬取豆瓣電影評分資料,只需要名稱、演員、時間、評分、評價等基本資訊即可。
增量式網路爬蟲
增量式網路爬蟲是指對已下載網頁採取增量式更新和只爬行新產生的或者已經發生變化網頁的爬蟲,它能夠在一定程度上保證所爬行的頁面是儘可能新的頁面。例如:想獲取趕集網的招聘資訊,以前爬取過的資料沒有必要重複爬取,只需要獲取更新的招聘資料,這時候就要用到增量式爬蟲。
深層網路爬蟲
Web 頁面按存在方式可以分為表層網頁和深層網頁。表層網頁是指傳統搜尋引擎可以索引的頁面,以超連結可以到達的靜態網頁為主構成的Web頁面。深層網頁是那些大部分內容不能通過靜態連結獲取的、隱藏在搜尋表單後的,只有使用者提交一些關鍵詞才能獲得的 Web 頁面也就是經過攔截處理。例如使用者註冊後內容才可見的網頁就屬於深層網頁。例如: 爬取百度貼吧或者論壇中的資料,必須在使用者登入後,有許可權的情況下才能獲取完整的資料。

介紹幾個案例:
1.googlebot
在這裡插入圖片描述
Googlebot指的是Google的機器人,或蜘蛛。一般Google會讓不同的Googlebot來對你的網頁內容進行處理,其中包括:
1.抓取文字內容,獲取內容來儲存於Google網頁搜尋和新聞搜尋的資料庫。
2. Googlebot-mobile:它的功能是抓取網頁中的文字內容來讓手機使用者搜尋。
3. Googlebot-Image:抓取網頁內的圖片內容,儲存入Google 圖片搜尋資料庫。
4. Mediapartners-Google:抓取網頁中的文字內容,用於Google Adsense分析關鍵詞。只有投放了Google Adsense的網頁才會被Mediapartners-Google探測器爬取。
5. Adsbot-Google:抓取網頁中的文字內容,用於為Google AdWords提供參考。只有Google AdWords的目標網頁才會被Adsbot-Google 探測器爬取。
(二)八爪魚採集器
在這裡插入圖片描述
八爪魚是一種資料採收工具不過是付費軟體,簡單來講,使用八爪魚可以非常容易的從任何網頁精確採集你需要的資料,生成自定義的、規整的資料格式。資料包括金融資料,如季報,年報,財務報告、各大新聞入口網站實時監控、監控各大社交網站,部落格,自動抓取企業產品的相關評論;收集最新最全的職場招聘資訊;監控各大地產相關網站,採集新房二手房最新行情;發現和收集潛在客戶資訊。總之是做資料探勘專案與大資料必備神器!
(三)惠惠購物助手
身邊很多小夥伴說雙11的時候很多淘寶店家的商品不僅不減價反而加價,莫名其妙被坑了一筆,然而惠惠購物助手正是防止被坑的神器。在您網購瀏覽商品的同時,自動對比全網電商同款商品價格,並提供商品價格歷史如圖:
在這裡插入圖片描述
(四)搶票軟體
在這裡插入圖片描述
搶票軟體是網際網路公司根據春運特定時期,使用者買票難問題而研發的一種產品,搶票軟體是一款基於瀏覽器的一種外掛。春運熱潮帶動下,據說能增加買到車票的概率,引來無數網友下載。在淘寶也可以找到一些付費的搶票軟體如”12306訂票助手”,賣的極其火爆,最多一個月銷售200多件,不過需要注意的是很多搶票軟體存在資訊洩露的問題,千萬不要被盜手機號與身份證號碼–
(五)資料分析與研究
資料冰山是一個專注於多元化資料採集、儲存、建模、挖掘與視覺化的專欄專案,比如最近就對王思聰抽獎事件進行了分析,下面這張圖展示了王思聰抽獎活動在網路空間上,此次事件的傳播圖以及傳播級數分佈,從圖中看出王思聰這條微博呈現出典型的多中心的特徵:經過一系列領域大V轉發,形成多個次級傳播中心。
在這裡插入圖片描述
圖片來自於知乎作用陶鏖
總結:本小結簡單介紹了爬蟲的基本知識、特點與型別,下一節將主要介紹爬蟲的先修知識。

爬蟲小課堂篇

由於在爬蟲基礎篇不知道大家水平如何所以假設大家都是純小白階段,手把手教學,前面三篇文章將帶大家安裝相對應的環境而不是帶大家敲程式碼,前面部分先教大家安裝python3.X、pychram、還有對應的爬蟲庫為後續實戰專案做準備。

Python安裝
因為Python是跨平臺的,它可以執行在Windows、Mac和各種Linux/Unix系統上。在Windows上寫Python程式,放到Linux上也是能夠執行的。
要開始學習Python程式設計,首先就得把Python安裝到你的電腦裡。安裝後,你會得到Python直譯器(就是負責執行Python程式的),一個命令列互動環境,還有一個簡單的整合開發環境。
2.x還是3.x
目前,Python有兩個版本,一個是2.x版,一個是3.x版,這兩個版本是不相容的,因為現在Python正在朝著3.x版本進化,所以我們直接使用python3.6版本進行實戰。
Python的安裝
1.進入Python官方網站下載安裝包連結:https://www.python.org/downloads/
根據自己的對應系統選擇安裝型別
在這裡插入圖片描述
如果你是系統是windows64位或者你想下載其他版本的安裝包—— 請點選Downloads > Windows 下載你需要的版本安裝包
注:64位版本不可以安裝在32位的系統上,但是32位版本可以安裝在64位的系統上,下面有對應版本選擇3.6版本對應的python點選Download。
在這裡插入圖片描述
2.將Python安裝到你的windows作業系統上
我安裝的是64位系統的安裝包,所以顯示為 Install Python3.6.2(64-bit) ,請根據windows系統需求進行安裝
這裡以 自定義安裝 為例
注: 請選中在這裡插入圖片描述 把Python新增到環境變數,這樣以後在windows命令提示符下面也可以執行Python
在這裡插入圖片描述
如果沒有特殊需求,就全選上。萬一用到了呢~ o()o 點選 Next 進行下一步
在這裡插入圖片描述
選中在這裡插入圖片描述 安裝目錄會改變,請根據自己的需求修改安裝路徑 再點選 Install 進行下一步
在這裡插入圖片描述
正在安裝…
在這裡插入圖片描述
安裝完成!!

Python的執行

1.在系統執行下面輸入IDLE環境執行
1.1 使用IDEL 在windows系統下搜尋IDLE (以W10系統為例)
在這裡插入圖片描述
使用Python語法中的 print(‘爬蟲之道1024’ ); 語法進行列印
在這裡插入圖片描述
開啟命令提示符
在這裡插入圖片描述
開啟命令視窗輸入python -V大家看到的應該是python 3.6.0我是3.7版本所以顯示3.7,如果顯示版本及安裝成功,表明python環境變數配置完成。
在這裡插入圖片描述
還可以使用程式碼編輯器例如:記事本、Notepapad++、SublimeText3 等等

相關文章