採集天貓新百倫旗艦店商品資料

rezy發表於2014-11-09

1. 下載火蜘蛛採集器

 

 

火蜘蛛採集器下載地址:

http://firespider.duapp.com/FireSpiderWeb/index.html

 

 

 

2.安裝

 

火蜘蛛採集器包含了一個客戶端和一個服務端安裝包。安裝非常方便,一路下一步就可以安裝完成。具體安裝步驟可以參考它提供的安裝手冊。

 

3.啟動

 

啟動服務端:在桌面有個快捷方式“Fire Spider Server Startup”,右鍵-》以管理員身份執行。

啟動客戶端:雙擊桌面快捷方式“FireSpider”

 

4.試用

安裝之後預設已經包含了幾個採集任務了。開啟客戶端,如下圖所示,選中一個任務後點選“執行採集”。

 

 

可以看到採集開始執行了。

 

如果需要停止採集,選中採集任務,點選“執行採集”按鈕旁邊的“退出”。

 

 

5.建立新百倫任務

安裝之後預設已經包含了一個採集駱駝天貓店的任務——“駱駝-列表頁”。我們只要參考這個,建一個自己的任務就可以了。比如我要採集 “新百倫旗艦店”,在天貓搜尋“新百倫”進入新百倫天貓店,找到新百倫的列表頁,連結是這樣的:

 

http://newbalance.tmall.com/search.htm?spm=a220m.1000858.1000725.4.vvTbdj&rn=bda5ce8edbc3307bf802e68880861de3&user_number_id=520557274

 

接下來建一個採集新百倫的任務

 

在瀏覽器輸出 http://localhost:8090/FireSpider/html/index.html 開啟管理中心

 

 

新建一個任務,除了“任務名稱”,“連結”,“資料上傳連結”,其實都跟“駱駝-列表頁”一樣就行了。連結填寫剛才的新百倫列表頁的連結。

注意“資料上傳連結” 欄位:這個是採集器在採集到資料的時候,會把資料往這個連結以POST方式推送。因為採集器並不知道我們拿採集到的資料有什麼用,只好把資料交給我們自己處理。我們可以在本地開一個REST服務,apache, tomcat, iis什麼的都可以。

這裡“資料上傳連結” 我們填寫 “http://localhost/myphp/index.php”,這裡我們用的是PHP。待會會講一個這個PHP指令碼。

如果只是體驗一下采集,“資料上傳連結”也可以留空。

 

點選儲存

 

6. 搭建WAMP

 

如果你不需要自己處理採集到的資料,這一步並不是必須的。這裡講的是PHP自定義採集資料處理,其它語言也可以略過。

6.1 安裝wamp 

這個無需多言,也是一直下一步就可以了。

6.2 建立Alias 

 

輸入alias名稱

輸入alias對應的目錄

6.3 index.php指令碼

 

 

  1. <?php  
  2.   
  3.   
  4. // 注意PHP檔案要儲存為UTF-8無BOM格式  
  5.   
  6.   
  7. // 取得POST過來的資料  
  8. // 因為firespider post時沒有設定content type,所以要用這種方式取post資料,不能用$_POST  
  9. $content = file_get_contents("php://input");  
  10.   
  11.   
  12. // JSON解碼  
  13. $p = json_decode($content);  
  14.   
  15.   
  16. // 後面可以寫你自己的邏輯。這裡只是儲存到一個檔案中  
  17. $james=fopen("e:/test/json-".$p->urlId.".txt", "w");  
  18.   
  19.   
  20. if(!$james) {  
  21.     echo'file not exist';  
  22.     exit;  
  23. }  
  24.   
  25.   
  26. fwrite($james, $content);  
  27. fclose($james);  



 

 

7. 採集新百倫

任務建立後就可以開始採集了。開啟採集器客戶端,在任務標籤頁,選中我們剛才新建的“新百倫”,點選“執行採集”

 

 

採集開始後,我們就可以在e:/test/ 下的josn-xxx.txt看到採集到的資料啦。

相關文章