Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
本篇是介紹在 Anaconda 環境下,建立 Scrapy 爬蟲框架專案的步驟,且介紹比較詳細
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
- 首先說一下,本篇是在 Anaconda 環境下,所以如果沒有安裝 Anaconda 請先到官網下載安裝
- Anaconda 下載地址:https://www.anaconda.com/download/
Scrapy 爬蟲框架專案的建立
- 0.開啟【cmd】
1.進入你要使用的 Anaconda 環境
- 1.環境名可以在【Pycharm】的【Settings】下【Project:】下找到
2.使用命令:activate 環境名,例如:
activate learn
3.進入想要存放 scrapy 專案的目錄下 【注意】
4.新建專案:scrapy startproject xxx專案名,例如:
scrapy startproject new_project
5.操作截圖:
- 6.在檔案資源管理器開啟該目錄,就會發現生成了好幾個檔案
- 7.使用 Pycharm 開啟專案所在目錄就可以了
這裡我們就把專案建立好了,分析一下自動生成的檔案的作用
- 1.環境名可以在【Pycharm】的【Settings】下【Project:】下找到
Scrapy 爬蟲框架專案的開發
- 0.使用 Pycharm 開啟專案,截圖:
- 專案的開發的大致流程:
- 1.明確需要爬取的目標/產品:編寫 item.py
- 2.在 spider 目錄下載建立 python 檔案製作爬蟲:
- 地址 spider/xxspider.py 負責分解,提取下載的資料
- 3.儲存內容:pipelines.py
- Pipeline.py 檔案
- 對應 pipelines 檔案
- 爬蟲提取出資料存入 item 後,item 中儲存的資料需要進一步處理,比如清洗,去蟲,儲存等
- Pipeline 需要處理 process_item 函式
- process_item
- spider 提取出來的 item 作為引數傳入,同時傳入的還有 spider
- 此方法必須實現
- 必須返回一個 Item 物件,被丟棄的 item 不會被之後的 pipeline
- _ init _:建構函式
- 進行一些必要的引數初始化
- open_spider(spider):
- spider 物件對開啟的時候呼叫
- close_spider(spider):
- 當 spider 物件被關閉的時候呼叫
Spider 目錄
- 對應的是資料夾 spider 下的檔案
- _ init _:初始化爬蟲名稱,start _urls 列表
- start_requests:生成 Requests 物件交給 Scrapy 下載並返回 response
- parse:根據返回的 response 解析出相應的 item,item 自動進入 pipeline:如果需要,解析 url,url自動交給 requests 模組,一直迴圈下去
- start_requests:此方法盡能被呼叫一次,讀取 start _urls 內容並啟動迴圈過程
- name:設定爬蟲名稱
- start_urls:設定開始第一批爬取的 url
- allow_domains:spider 允許去爬的域名列表
- start_request(self):只被呼叫一次
- parse:檢測編碼
- log:日誌記錄
更多文章連結:Python 爬蟲隨筆
- 本筆記不允許任何個人和組織轉載
相關文章
- Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹Python爬蟲框架
- 利用scrapy建立初始Python爬蟲專案Python爬蟲
- Python爬蟲教程-30-Scrapy 爬蟲框架介紹Python爬蟲框架
- Python爬蟲—Scrapy框架Python爬蟲框架
- python爬蟲Scrapy框架Python爬蟲框架
- Scrapy爬蟲框架爬蟲框架
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案Python爬蟲框架
- scrapy入門教程()部署爬蟲專案爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- 【Python篇】scrapy爬蟲Python爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Scrapy爬蟲框架的使用爬蟲框架
- 爬蟲框架-scrapy的使用爬蟲框架
- python 爬蟲對 scrapy 框架的認識Python爬蟲框架
- Python爬蟲 ---scrapy框架初探及實戰Python爬蟲框架
- Python3爬蟲(十八) Scrapy框架(二)Python爬蟲框架
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- python爬蟲學習筆記 4.2 (Scrapy入門案例(建立專案))Python爬蟲筆記
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- Scrapy框架的使用之Scrapy通用爬蟲框架爬蟲
- Python爬蟲框架:scrapy爬取高考派大學資料Python爬蟲框架
- Python爬蟲 --- 2.3 Scrapy 框架的簡單使用Python爬蟲框架
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- scrapy 框架新建一個 爬蟲專案詳細步驟框架爬蟲
- Python爬蟲教程-33-scrapy shell 的使用Python爬蟲
- gerapy框架爬蟲專案部署框架爬蟲
- Scrapy爬蟲-草稿爬蟲
- python爬蟲-33個Python爬蟲專案實戰(推薦)Python爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- Python爬蟲教程-01-爬蟲介紹Python爬蟲
- scrapy通用專案和爬蟲程式碼模板爬蟲
- Scrapy入門-第一個爬蟲專案爬蟲
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 爬蟲教程——用Scrapy爬取豆瓣TOP250爬蟲