社會化海量資料採集爬蟲框架搭建

lanceyan發表於2013-08-27

隨著BIG DATA大資料概念逐漸升溫,如何搭建一個能夠採集海量資料的架構體系擺在大家眼前。如何能夠做到所見即所得的無阻攔式採集、如何快速把不規則頁面結構化並儲存、如何滿足越來越多的資料採集還要在有限時間內採集。這篇文章結合我們自身專案經驗談一下。

我們來看一下作為人是怎麼獲取網頁資料的呢?

1、開啟瀏覽器,輸入網址url訪問頁面內容。
2、複製頁面內容的標題、作者、內容。
3、儲存到文字檔案或者excel。

從技術角度來說整個過程主要為 網路訪問、扣取結構化資料、儲存。我們看一下用java程式如何來實現這一過程。

通過這個例子,我們看到通過httpclient獲取資料,通過字串操作扣取標題內容,然後通過system.out輸出內容。大家是不是感覺做一個爬蟲也還是蠻簡單呢。這是一個基本的入門例子,我們再詳細介紹怎麼一步一步構建一個分散式的適用於海量資料採集的爬蟲框架。

整個框架應該包含以下部分,資源管理、反監控管理、抓取管理、監控管理。看一下整個框架的架構圖:

crawler1

    • 資源管理指網站分類體系、網站、網站訪問url等基本資源的管理維護;
    • 反監控管理指被訪問網站(特別是社會化媒體)會禁止爬蟲訪問,怎麼讓他們不能監控到我們的訪問時爬蟲軟體,這就是反監控機制了;

一個好的採集框架,不管我們的目標資料在哪兒,只要使用者能夠看到都應該能採集到。所見即所得的無阻攔式採集,無論是否需要登入的資料都能夠順利採集。現在大部分社交網站都需要登入,為了應對登入的網站要有模擬使用者登入的爬蟲系統,才能正常獲取資料。不過社會化網站都希望自己形成一個閉環,不願意把資料放到站外,這種系統也不會像新聞等內容那麼開放的讓人獲取。這些社會化網站大部分會採取一些限制防止機器人爬蟲系統爬取資料,一般一個賬號爬取不了多久就會被檢測出來被禁止訪問了。那是不是我們就不能爬取這些網站的資料呢?肯定不是這樣的,只要社會化網站不關閉網頁訪問,正常人能夠訪問的資料,我們也能訪問。說到底就是模擬人的正常行為操作,專業一點叫“反監控”。

那一般網站會有什麼限制呢?

一定時間內單IP訪問次數,沒有哪個人會在一段持續時間內過快訪問,除非是隨意的點著玩,持續時間也不會太長。可以採用大量不規則代理IP來模擬。

一定時間內單賬號訪問次數,這個同上,正常人不會這麼操作。可以採用大量行為正常的賬號,行為正常就是普通人怎麼在社交網站上操作,如果一個人一天24小時都在訪問一個資料介面那就有可能是機器人了。

如果能把賬號和IP的訪問策略控制好了,基本可以解決這個問題了。當然對方網站也會有運維會調整策略,說到底這是一個戰爭,躲在電腦螢幕後的敵我雙方,爬蟲必須要能感知到對方的反監控策略進行了調整,通知管理員及時處理。未來比較理想應該是通過機器學習演算法自動完成策略調整,保證抓取不間斷。

    • 抓取管理指通過url,結合資源、反監控抓取資料並儲存;我們現在大部分爬蟲系統,很多都需要自己設定正規表示式,或者使用htmlparser、jsoup等軟體來硬編碼解決結構化抓取的問題。不過大家在做爬蟲也會發現,如果爬取一個網站就去開發一個類,在規模小的時候還可以接受,如果需要抓取的網站成千上萬,那我們不是要開發成百上千的類。為此我們開發了一個通用的抓取類,可以通過引數驅動內部邏輯排程。比如我們在引數裡指定抓取新浪微博,抓取機器就會排程新浪微博網頁扣取規則抓取節點資料,呼叫儲存規則儲存資料,不管什麼型別最後都呼叫同一個類來處理。對於我們使用者只需要設定抓取規則,相應的後續處理就交給抓取平臺了。

整個抓取使用了 xpath、正規表示式、訊息中介軟體、多執行緒排程框架(參考)。xpath 是一種結構化網頁元素選擇器,支援列表和單節點資料獲取,他的好處可以支援規整網頁資料抓取。我們使用的是google外掛 XPath Helper,這個玩意可以支援在網頁點選元素生成xpath,就省去了自己去查詢xpath的功夫,也便於未來做到所點即所得的功能。正規表示式補充xpath抓取不到的資料,還可以過濾一些特殊字元。訊息中介軟體,起到抓取任務中間轉發的目的,避免抓取和各個需求方耦合。比如各個業務系統都可能抓取資料,只需要向訊息中介軟體傳送一個抓取指令,抓取平臺抓完了會返回一條訊息給訊息中介軟體,業務系統在從訊息中介軟體收到訊息反饋,整個抓取完成。多執行緒排程框架之前提到過,我們的抓取平臺不可能在同一時刻只抓一個訊息的任務;也不可能無限制抓取,這樣資源會耗盡,導致惡性迴圈。這就需要使用多執行緒排程框架來排程多執行緒任務並行抓取,並且任務的數量,保證資源的消耗正常。

不管怎麼模擬總還是會有異常的,這就需要有個異常處理模組,有些網站訪問一段時間需要輸入驗證碼,如果不處理後續永遠返回不了正確資料。我們需要有機制能夠處理像驗證碼這類異常,簡單就是有驗證碼了人為去輸入,高階一些可以破解驗證碼識別演算法實現自動輸入驗證碼的目的。

擴充套件一下 :所見即所得我們是不是真的做到?規則配置也是個重複的大任務?重複網頁如何不抓取?

1、有些網站利用js生成網頁內容,直接檢視原始碼是一堆js。 可以使用mozilla、webkit等可以解析瀏覽器的工具包解析js、ajax,不過速度會有點慢。
2、網頁裡有一些css隱藏的文字。使用工具包把css隱藏文字去掉。
3、圖片flash資訊。 如果是圖片中文字識別,這個比較好處理,能夠使用ocr識別文字就行,如果是flash目前只能儲存整個url。
4、一個網頁有多個網頁結構。如果只有一套抓取規則肯定不行的,需要多個規則配合抓取。
5、html不完整,不完整就不能按照正常模式去扣取。這個時候用xpath肯定解析不了,我們可以先用htmlcleaner清洗網頁後再解析。
6、 如果網站多起來,規則配置這個工作量也會非常大。如何幫助系統快速生成規則呢?首先可以配置規則可以通過視覺化配置,比如使用者在看到的網頁想對它抓取資料,只需要拉開外掛點選需要的地方,規則就自動生成好了。另在量比較大的時候視覺化還是不夠的,可以先將型別相同的網站歸類,再通過抓取的一些內容聚類,可以統計學、視覺化抓取把內容扣取出幾個版本給使用者去糾正,最後確認的規則就是新網站的規則。這些演算法後續再講。這塊再補充一下(多謝zicjin建議):

背景:如果我們需要抓取的網站很多,那如果靠視覺化配置需要耗費大量的人力,這是個成本。並且這個交給不懂html的業務去配置準確性值得考量,所以最後還是需要技術做很多事情。那我們能否通過技術手段可以幫助生成規則減少人力成本,或者幫助不懂技術的業務準確的把資料扣取下來並大量複製。

方案:先對網站分類,比如分為新聞、論壇、視訊等,這一類網站的網頁結構是類似的。在業務開啟需要扣取的還沒有錄入我們規則庫的網頁時,他先設定這個頁面的分類(當然這個也可以機器預先判斷,他們來選擇,這一步必須要人判斷下),有了分類後,我們會通過“統計學、視覺化判斷”識別這一分類的欄位規則,但是這個是機器識別的規則,可能不準確,機器識別完後,還需要人在判斷一下。判斷完成後,最後形成規則才是新網站的規則

7、對付重複的網頁,如果重複抓取會浪費資源,如果不抓需要一個海量的去重判斷快取。判斷抓不抓,抓了後存不存,並且這個快取需要快速讀寫。常見的做法有bloomfilter、相似度聚合、分類海明距離判斷。

  • 監控管理指不管什麼系統都可能出問題,如果對方伺服器當機、網頁改版、更換地址等我們需要第一時間知道,這時監控系統就起到出現了問題及時發現並通知聯絡人。

目前這樣的框架搭建起來基本可以解決大量的抓取需求了。通過介面可以管理資源、反監控規則、網頁扣取規則、訊息中介軟體狀態、資料監控圖表,並且可以通過後臺調整資源分配並能動態更新保證抓取不斷電。不過如果一個任務的處理特別大,可能需要抓取24個小時或者幾天。比如我們要抓取一條微博的轉發,這個轉發是30w,那如果每頁線性去抓取耗時肯定是非常慢了,如果能把這30w拆分很多小任務,那我們的平行計算能力就會提高很多。不得不提的就是把大型的抓取任務hadoop化,廢話不說直接上圖:

crawler2

今天先寫到這裡,後續再介紹下 日均千萬大型採集專案實戰。

相關文章