2018-05-10 爬蟲筆記（二）一個簡單的實踐 —簡單獲取生物資訊達人博主主頁的資訊...

weixin_34321977發表於2018-05-12

原文網址 : https://blog.csdn.net/weixin_34321977/article/details/87705575

爬蟲筆記

1.建立一個專案

建立一個專案

我們來看看這個專案的結構：

裡面就是一些核心元件

2 建立一個爬取資訊的spider

建立一個hoptop的爬蟲

3 我們可以除錯一下先

使用 scrapy shell +網址

然後view (response)

but

發現被禁止了

這種情況下，一般來說，就是要加一個頭資訊，有些時候，為了保留登入狀態，還需要獲得cookie的資訊。

在這裡我採用了browsercookie來自動獲取我的chrome 瀏覽器的cookie,並加上了headers再試一遍：

4 反反爬蟲

pip3 install browsercookie

安裝browsercookie

在setting 裡面增加headers

在middleware中增加程式碼

在setting 中設定啟動剛剛的middlewares

最後除錯一下

出現200
然後view(response)跳出頁面
說明成功了‘

5 提取內容模組
之後就是解析頁面了，解析頁面可以使用css xpath 或者BeautifulSoup 這裡先上程式碼，因為這個屬於獨立的一塊，那個用的好久用哪個。

比如像這樣提取一個標題（用xpath）：

xpath例項

6 設定item
我這裡展示一下提取文章名字和摘要
先在item.py中封裝

item封裝

7 編寫spider

這裡我只是想介紹個整理，先上spider 程式碼啦

# -*- coding: utf-8 -*-
import scrapy
from ..items import SpiderProjectItem


class HoptopSpider(scrapy.Spider):
    name = 'hoptop'
    allowed_domains = ['www.jianshu.com/u/9ea40b5f607a']
    start_urls = ['http://www.jianshu.com/u/9ea40b5f607a/']

    def parse(self, response):
        content = SpiderProjectItem()
        titles = response.xpath('//*[@id]/div/a/text()').extract()
        #for one in titles:
        #    content['title'] = one
        #    yield content

        abstracts = response.xpath('//*[@id]/div/p/text()').extract()
        #for unit in abstracts:
        #    content['abstract'] = unit
        #    yield content
        n = len(titles)
        i = 0
        while i < n :
            content['title'] = titles[i]
            content['abstract'] = abstracts[i]
            i = i + 1
            yield content

我這裡的程式碼比較簡陋，只是初步提取資訊，還不包括下滑翻頁，只是展示一下而已

測試一下

scrapy crawl hoptop -o result.csv

成功了，雖然有點簡陋

結果

寫在後面：

首先要明白爬蟲用來幹什麼，一般來說，是用來批量獲取網路上的資訊資源，比如我想把hoptop的部落格全部下載下來離線看，那麼他寫了那麼多的部落格，我不可能一頁一頁地複製，所以我可以編寫爬蟲批量下載
有些時候不一定要用框架，但是框架可以幫你節約一點時間，也別是大型的專案的時候
這裡只是很簡陋地展示了一下，後續可以加入python對文字的處理能力，來規則化地獲取資訊。

4。如果要簡單地使用scrapy 我覺得步驟可以如下：
1.先用shell除錯，看看結構和反爬蟲手段
2.然後記得在setting中加上瀏覽器的headers ，編寫middlewares 可以使用chrome的Cookies模擬登陸。
3.接下來定義item中需要儲存的內容（注意是文字的）
4.然後編寫spider 解析函式

Python筆記：網頁資訊爬取簡介（一）
2020-11-11
Python筆記網頁
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
《Python開發簡單爬蟲》實踐筆記
2021-09-09
Python爬蟲筆記
python實現微博個人主頁的資訊爬取
2021-01-03
Python
go語言實現簡單爬蟲獲取頁面圖片
2022-11-14
Go爬蟲
selenium + xpath爬取csdn關於python的博文博主資訊
2020-12-19
Python
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
nodeJS做一個簡單的爬蟲
2018-03-30
NodeJS爬蟲
python簡單爬蟲(二)
2018-04-18
Python爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
爬蟲實踐之獲取網易雲評論資料資訊
2022-03-29
爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
一個簡單的爬蟲頭部構造
2020-11-22
爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
爬蟲例項-淘寶頁面商品資訊獲取
2020-10-08
爬蟲
Python 超簡單爬取微博熱搜榜資料
2020-05-13
Python
Python爬蟲筆記（一）——基礎知識簡單整理
2018-07-08
Python爬蟲筆記
Laravel 手動搭建簡單的資料爬蟲
2019-11-28
Laravel爬蟲
Python 開發簡單爬蟲 (學習筆記)
2019-08-05
Python爬蟲筆記
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
簡單實踐實現 MySQL 主從複製
2020-07-01
MySql
Python 超簡單爬取新浪微博資料 (高階版)
2020-05-16
Python
trade.get( 獲取單筆交易的部分資訊）介面
2023-02-11
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
一個簡單的netty通訊的例子
2024-05-27
Netty
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
爬蟲實戰（二）：Selenium 模擬登入並爬取資訊
2018-07-15
爬蟲
初探python之做一個簡單小爬蟲
2019-03-02
Python爬蟲
Python爬蟲精簡步驟1 獲取資料
2020-02-17
Python爬蟲
DRY原則的一個簡單實踐
2020-06-12
python爬蟲58同城（多個資訊一次爬取）
2018-11-04
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
爬蟲實踐－基於Jsoup爬取Facebook群組成員資訊
2019-03-04
爬蟲JS
Request模組實戰01 ---簡單爬取頁面
2020-12-08
WebRTC：一個視訊聊天的簡單例子
2019-08-08
Web單例
python 爬取 blessing skin 的簡單實現
2020-03-04
Python
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站

2018-05-10 爬蟲筆記（二）一個簡單的實踐 —簡單獲取生物資訊達人博主主頁的資訊...

相關文章