Scrapy：根據目錄來下載github上的檔案

ditclear發表於2019-03-01

原文網址 : https://flycode.co/archives/276841

寫在前面

最近在學習Python的語法，刷刷LeetCode什麼的。熟悉之後，就想著寫一個爬蟲實際運用一下。

知乎了一下，然後看了scrapy的文件 ,就開始動手了。

那麼爬什麼呢❓

當時就想著寫一個根據目錄來下載github倉庫檔案的spider。因為以前下載github倉庫的時候要麼只能根據git地址clone整個repo，要麼只能通過octoTree或者insightio下載單個檔案，然而經常會有需要下載單個或者多個目錄的情況，所以就想著寫一個根據目錄來下載github上檔案的爬蟲。

開始

要開始，當然是推薦看官方的入門教程了。

這裡簡單描述下步驟：

##1.建立專案
scrapy startproject scrapy_github_dir
##2.建立爬蟲
scrapy genspider app github.com
##3.寫邏輯或者進行設定等等
##4.執行爬蟲，爬取路徑是github上的目錄或者檔案
scrapy crawl app -a urls = https://github.com/ditclear/BindingListAdapter/tree/917e254f527d101e3f583c38739a61f3bcffbc11/library-kotlin
複製程式碼

主要的程式碼都在app.py裡，當執行scrapy genspider app github.com時會主動幫你生成它

import scrapy
from ..items import ScrapyGithubDirItem

class AppSpider(scrapy.Spider):
    name = 'app'
    allowed_domains = ['github.com']
    content_domains = 'https://github.com/'
    start_urls = []

    def __init__(self, urls=None, *args, **kwargs):
        super(AppSpider, self).__init__(*args, **kwargs)
        self.start_urls = urls.split(',')
	//執行scrapy crawl xx 後，處理response
    def parse(self, response):
        raw_url = response.css('a#raw-url').xpath('@href').extract_first()
        if raw_url:
                href = self.content_domains+raw_url
                print("scrapy from href --> ", href)
                yield scrapy.Request(href, callback=self.parse_link)
        else:
            for link in response.selector.xpath('//a[@class="js-navigation-open"]/@href').extract()[1:]:
                href = self.content_domains+link
                yield scrapy.Request(href, callback=self.parse)

    def parse_link(self, response):
        responseStr = str(response).strip()
        url = responseStr.strip()[5:len(responseStr)-1]
        print('download from url --> ', url)
        item = ScrapyGithubDirItem()
        item['file_urls'] = [url]
        return item

複製程式碼

當執行scrapy crawl xx 後，會在parse(self, response)方法處理response。

處理response，簡單理解來就是通過css選擇器和xpath來找到你想要的內容，比如text/img/href等等，獲取到想要的內容後，儲存到檔案、資料庫，期間摻雜著一些scarpy的配置。

通過分析網頁原始檔：

可以看到單個檔案的下載連結在id為raw-url的a標籤中，所以我們需要找到這個標籤然後獲取到想要的連結。

raw_url = response.css('a#raw-url').xpath('@href').extract()
複製程式碼

這裡的意思是通過css選擇器找到id為raw-url的a標籤，然後獲取到a標籤的href引數，最後提取出來以列表的形式返回。

如果沒有返回那麼則表示當前request的url不是具體的某個檔案，而是一個目錄。

如果當前url是目錄

分析一下目錄的response的結構，通過css選擇器和xpath繼續找到其下一級的檔案

同樣的，找到這個地址

response.selector.xpath('//a[@class="js-navigation-open"]/@href').extract()
複製程式碼

需要注意的是返回的列表中，第一個索引的值指向的是上一級目錄，所以需要將其排除掉。接著遞迴呼叫當前的parse方法，直到爬取到檔案為止。

if raw_url:
	//爬取具體的檔案
    yield scrapy.Request(href, callback=self.parse_link)
else:
    //如果是目錄,遞迴直到爬取到檔案為止
    for link in response.selector.xpath('//a[@class="js-navigation-open"]/@href').extract()[1:]:
    	yield scrapy.Request(href, callback=self.parse)
複製程式碼

程式碼不多，順利的話半天就能成功。

寫在最後

回顧一下，能發現沒怎麼就已經寫好了。而爬蟲簡單看來就是通過css選擇器、xpath或者正則找到需要的資料，然後進行想要的處理，期間夾雜著遞迴的邏輯和演算法，當然這只是初見scrapy，不過已經能發現Python以及Scrapy的強大了。

github地址：github.com/ditclear/sc…

參考資料：

scrapy-chs.readthedocs.io/zh_CN/1.0/t…

列出並排序檔案系統根目錄（/）下各個目錄的大小
2024-06-13
排序
下載GitHub上檔案的兩種方法
2021-09-09
Github
根據網路連線(檔案連結)下載檔案到本地
2024-08-14
.Net引用根目錄子資料夾下的dll檔案
2023-01-03
linux將掛載在home目錄下的磁碟轉移到根目錄下
2021-03-19
Linux
如何在 Laravel 裡直接輸出根目錄下的 HTML 檔案
2018-10-13
LaravelHTML
根據輸入的excel檔案地址讀取圖片名稱，遞迴匹配特定目錄下的圖片資訊並整理到指定的目錄下
2024-11-22
Excel遞迴
為 github markdown 檔案生成目錄(toc)
2018-07-12
Github
Lnmp 網站根目錄檔案許可權
2018-09-18
LNMP網站
遍歷目錄下的所有檔案
2020-12-09
多執行緒下載nginx站點目錄下檔案
2024-09-18
執行緒Nginx
python 根據時間戳建立目錄操作
2024-10-06
Python時間戳
檢測根目錄帶bom頭資訊的檔案
2018-10-18
8.var目錄下的檔案和目錄詳解
2020-04-04
下載Github上公開專案檔案方法#coding.net及git的使用方式#克隆 Github 上的專案
2018-12-07
Github
gitignore 忽略目錄下檔案僅保留目錄形態
2020-08-10
Git
webloginc配置專案根目錄
2021-08-31
Web
IIS虛擬目錄掛載檔案伺服器目錄
2018-04-11
伺服器
根據api檔案生成程式碼
2021-10-21
API
Java 從指定URL下載檔案並儲存到指定目錄
2018-05-31
Java
Java 根據模板生成 PDF 檔案以及 excel 檔案
2024-09-02
JavaExcel
linux 中根據檔案的大小進行檔案的查詢
2024-07-17
Linux
Mac下根據nvm下載node指定版本
2019-01-23
Mac
檔案上傳下載
2024-09-01
Linux 只複製目錄，不復制目錄下的資料檔案
2019-12-03
Linux
檔案的上傳與下載
2018-04-09
Linux中返回上一級目錄和返回根目錄命令
2020-11-27
Linux
scrapy 採集常用的Pipeline(輸出檔案、圖片下載)
2020-09-28
【git】透過 .gitignore 檔案來忽略特定的目錄
2024-07-28
Git
刪除指定目錄下指定字尾的檔案
2018-07-29
Linux中如何檢視目錄下的檔案大小?
2023-10-12
Linux
Linux檢視當前目錄下的檔案大小
2024-11-13
Linux
Flink發行包中 lib 目錄下的檔案作用
2023-03-06
利用github給國外檔案下載加速
2021-01-15
Github
JAVA檔案上傳下載
2020-09-24
Java
springboot 檔案上傳下載
2020-12-17
Spring Boot
檔案上傳與下載
2020-12-13
配置vuter的根目錄
2024-09-01

Scrapy：根據目錄來下載github上的檔案

寫在前面

開始

寫在最後

參考資料：

相關文章