爬蟲(三)－客戶端爬取Android SDK釋出

wendux發表於2017-03-23

原文網址 : https://juejin.im/post/58d39dec44d90400685d6b63

爬蟲客戶端Android

通過前兩篇文章，我們深入論述了後臺爬取的痛點，同時提出了對客戶端方案可行性的思考。今天我們就來介紹一下全球第一個客戶端爬取平臺，今天我們來揭開它的神祕面紗！

前兩篇文章：
一篇文章瞭解爬蟲技術現狀
 爬蟲技術(二)－客戶端爬蟲

DSpider平臺

DSpider是客戶端爬取平臺臺,官網地址：dspider.dtworkroom.com/，如官網說述， DSpider主要由雲管理平臺、sdk、爬蟲商店三部分組成，我們簡單說明一下這三者的各自職責：

雲管理平臺

dSpider的爬取指令碼是動態下發的，雲管理平臺主要用於配置指令碼引數、更新指令碼、統計指令碼爬取狀態、錯誤分析等。如果你是開發者，那麼雲管理平臺同時也是釋出、管理自己指令碼的地方。

SDK

sdk負責從雲端請求指令碼然後執行，最後將爬取結果傳給第三方APP. （官方提供了ios和android的sdk,但目前只開放了android sdk）。

爬蟲商店

類似於應用商店，是一個爬蟲倉庫，開發者可以在裡面挑選所需的指令碼，也可以將自己的指令碼釋出到爬蟲商店

整合到APP

我們以android為例,官方提供了完整的文件及demo:
Android整合文件：dspider.dtworkroom.com/document/an…
Android demo:github.com/wendux/DSpi…

我們先來看看官方demo的執行效果：

顯式爬取

爬取簡書主頁所有文章標題和連結：

隱式爬取（靜默）

隱式爬取沒有進度條，demo中彈出了一個loading窗作為指示：

爬取指令碼

爬取指令碼非常簡單，我們看看爬取簡書的指令碼：

/**
 * Created by du on 16/11/21.
 */
dSpider("jianshu", function(session,env,$){
    session.showProgress();
    var $items=$("div.title");
    var count=$items.length;
    session.log("共"+count+"條");
    session.setProgressMax(count)
    session.setProgressMsg("正在初始化");
    var i=0;
   //模擬進度，每隔200ms向端上傳遞一次資料
    var timer=setInterval(function(){
      session.setProgress(i+1);
      var title=$items.eq(i).text();
      session.setProgressMsg(title);
      session.push({title:title, url:$items.eq(i).parent().attr("href")});
      if(++i>=count){
       clearInterval(timer);
       session.finish();
      }
    },200);
})複製程式碼

可見爬取指令碼非常簡單：用jquery解析網頁，然後再通過session物件和native 進行互動。詳細的API文件請移步dSpider Javascript API文件。

注意事項

整合前需要去官網註冊，登入後要先建立應用
建立應用成功後會得到appid, sdk中需要。
應用建立之後需要給應用手動新增所需的爬蟲；系統預設會給每個新建的應用新增sid為1的測試爬蟲，該爬蟲資訊：dspider.dtworkroom.com/spider/1；
sid為每一個爬蟲的id, 在後臺建立爬蟲後會得到sid. 你也可以去指令碼商店選擇。

客戶端爬取－答網友問
2019-03-04
客戶端
如何使用python爬蟲直接返回客戶端IP？
2021-09-11
Python爬蟲客戶端
python爬蟲實踐: 豆瓣小組命令列客戶端
2019-02-16
Python爬蟲命令列客戶端
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲之股票定向爬取
2018-12-06
爬蟲
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
如何合理控制爬蟲爬取速度？
2022-06-02
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
提高爬蟲爬取效率的辦法
2022-04-06
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
爬蟲練習——爬取縱橫中文網
2020-10-19
爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
python 爬蟲 1 爬取酷狗音樂
2020-03-29
Python爬蟲
擼個爬蟲，爬取電影種子
2019-05-11
爬蟲
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
爬蟲平臺Crawlab v0.2釋出
2019-05-10
爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
獲取爬蟲動態IP的三種方法
2022-06-06
爬蟲
爬蟲：多程式爬蟲
2021-05-19
爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
一個很垃圾的整站爬取--Java爬蟲
2019-01-07
Java爬蟲
Python爬蟲：爬取instagram，破解js加密引數
2019-04-09
Python爬蟲JS加密
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Python 第一個爬蟲，爬取 147 小說
2020-05-08
Python爬蟲
小白學 Python 爬蟲（25）：爬取股票資訊
2019-12-24
Python爬蟲
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python