1. 下載火蜘蛛採集器
火蜘蛛採集器下載地址:
http://firespider.duapp.com/FireSpiderWeb/index.html
2.安裝
火蜘蛛採集器包含了一個客戶端和一個服務端安裝包。安裝非常方便,一路下一步就可以安裝完成。具體安裝步驟可以參考它提供的安裝手冊。
3.啟動
啟動服務端:在桌面有個快捷方式“Fire Spider Server Startup”,右鍵-》以管理員身份執行。
啟動客戶端:雙擊桌面快捷方式“FireSpider”
4.試用
安裝之後預設已經包含了幾個採集任務了。開啟客戶端,如下圖所示,選中一個任務後點選“執行採集”。
可以看到採集開始執行了。
如果需要停止採集,選中採集任務,點選“執行採集”按鈕旁邊的“退出”。
5.建立新百倫任務
安裝之後預設已經包含了一個採集駱駝天貓店的任務——“駱駝-列表頁”。我們只要參考這個,建一個自己的任務就可以了。比如我要採集 “新百倫旗艦店”,在天貓搜尋“新百倫”進入新百倫天貓店,找到新百倫的列表頁,連結是這樣的:
http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274
接下來建一個採集新百倫的任務
在瀏覽器輸出 http://localhost:8090/FireSpider/html/index.html 開啟管理中心
新建一個任務,除了“任務名稱”,“連結”,“資料上傳連結”,其實都跟“駱駝-列表頁”一樣就行了。連結填寫剛才的新百倫列表頁的連結。
注意“資料上傳連結” 欄位:這個是採集器在採集到資料的時候,會把資料往這個連結以POST方式推送。因為採集器並不知道我們拿採集到的資料有什麼用,只好把資料交給我們自己處理。我們可以在本地開一個REST服務,apache, tomcat, iis什麼的都可以。
這裡“資料上傳連結” 我們填寫 “http://localhost/myphp/index.php”,這裡我們用的是PHP。待會會講一個這個PHP指令碼。
如果只是體驗一下采集,“資料上傳連結”也可以留空。
點選儲存
6. 搭建WAMP
如果你不需要自己處理採集到的資料,這一步並不是必須的。這裡講的是PHP自定義採集資料處理,其它語言也可以略過。
6.1 安裝wamp
這個無需多言,也是一直下一步就可以了。
6.2 建立Alias
輸入alias名稱
輸入alias對應的目錄
6.3 index.php指令碼
- <?php
- // 注意PHP檔案要儲存為UTF-8無BOM格式
- // 取得POST過來的資料
- // 因為firespider post時沒有設定content type,所以要用這種方式取post資料,不能用$_POST
- $content = file_get_contents("php://input");
- // JSON解碼
- $p = json_decode($content);
- // 後面可以寫你自己的邏輯。這裡只是儲存到一個檔案中
- $james=fopen("e:/test/json-".$p->urlId.".txt", "w");
- if(!$james) {
- echo'file not exist';
- exit;
- }
- fwrite($james, $content);
- fclose($james);
7. 採集新百倫
任務建立後就可以開始採集了。開啟採集器客戶端,在任務標籤頁,選中我們剛才新建的“新百倫”,點選“執行採集”
採集開始後,我們就可以在e:/test/ 下的josn-xxx.txt看到採集到的資料啦。