爬蟲開源專案及其思想

fuck_prometheus發表於2016-08-24

原文網址 : https://blog.csdn.net/illbehere/article/details/52298783

https://github.com/JFanZhao/spider
https://github.com/canghaiyisu666/spider

使用java+httpclient+httpcleaner，多執行緒、分散式爬去電商網站商品資訊，資料儲存在hbase上，並使用solr對商品建立索引，使用redis佇列儲存一個共享的url倉庫；使用zookeeper對爬蟲節點生命週期進行監視等。

https://github.com/gsh199449/DistributeCrawler

基於Map/Reduce爬蟲,可抽取各大新聞網站的新聞正文並進行分類和聚類
這是一個基於Hadoop的分散式爬蟲，目前只支援抓取騰訊新聞中心的新聞內容。支援外掛機制，可以通過實現Extractor介面自己編寫外掛已實現對於各種網站的抓取和內容提取。

https://github.com/decaywood/XueQiuSuperSpider
雪球網或者東方財富或者同花順目前已經提供了很多種股票篩選方式，但是篩選方式是根據個人操作 風格來定義的，三個網站有限的篩選方式顯然不能滿足廣大股民、程式設計師特別是資料分析控的要求， 基於此，本人設計了一個可以任意擴充，實現任意資料蒐集與分析的爬蟲程式，滿足股友們的需要， 只要你能想到的資料蒐集與分析策略它都能實現。（專案嚴重依賴JDK8新特性，偏重函數語言程式設計思想，不熟悉的已備好教程以及例子： Java8 簡明教程）


https://git.oschina.net/sixliu/spider
整個分散式基於springboot,zookeeper,redis,netty,mysql等基礎開源框架實現。 1.springboot作為整個專案的管理容器， 2.zookeeper作為整個叢集幾點註冊和發現， 3.redis用來作為叢集快取和工作空間實現, 由於redis支援rpush lpop佇列操作,然後lpop,rpush 運算元據key,hset,hget操作實際儲存資料來實現redis佇列ack,資料實際處理完後再hdell資料 4.netty用來作為節點間通訊, 5.mysql用儲存持久化資料. 專案僅僅為一個可執行jar. 下載器:支援okhttp,phantomjs,chrome3種下載方式. 提供了登入，驗證碼識別介面， 實現了根據站點code切換代理Ip(基於redis實現的http代理管理佇列) 解析: 支援普通cssQuery 抽取元素, 表格單條資料抽取，表格多條資料抽取，json抽取,正則抽取。 支援自定義解析結果。 抽取結果儲存:支援資料庫，http傳送 ,檔案等儲存方式

Python爬蟲開源專案合集
2020-06-04
Python爬蟲
這 6 個爬蟲開源專案 yyds
2021-10-22
爬蟲
爬蟲專案
2019-06-07
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
爬蟲小專案
2019-05-10
爬蟲
爬蟲專案部署
2018-04-03
爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
Python開發爬蟲專案+程式碼
2019-04-24
Python爬蟲
奇伢爬蟲專案
2018-10-08
爬蟲
爬蟲專案總結
2020-08-31
爬蟲
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
Python培訓教程分享：有哪些值得使用的爬蟲開源專案?
2021-11-29
Python爬蟲
從零開始的爬蟲專案（一）
2020-04-23
爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
網路爬蟲專案開發日誌（三）：爬蟲上線準備
2022-02-02
爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
100爬蟲專案遷移
2018-09-19
爬蟲
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
爬蟲的例項專案
2019-04-26
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python爬蟲開發與專案實戰pdf
2020-01-11
Python爬蟲
Python爬蟲開發與專案實戰（2）
2020-10-21
Python爬蟲
Python爬蟲開發與專案實踐（3）
2020-10-26
Python爬蟲
Python爬蟲開發與專案實戰（1）
2020-10-18
Python爬蟲
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
通用新聞爬蟲開發系列（專案介紹）
2022-02-18
爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
Java爬蟲專案環境搭建
2018-09-18
Java爬蟲
中科院爬蟲完整專案
2018-07-10
爬蟲

爬蟲開源專案及其思想

相關文章