使用Scrapy抓取新浪微博使用者資訊

libbit702發表於2019-02-16

原文網址 : https://flycode.co/archives/78739

詳細程式碼可檢視Knowsmore

資料的來源是新浪微博的手機端H5頁面

個人資料API：https://m.weibo.cn/profile/in…【使用者ID】

發出的微博API：https://m.weibo.cn/api/contai…【使用者ID】_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=【頁數從1開始】

# -*- coding: utf-8 -*-
import scrapy
import re
import json
import os,sys
from scrapy import Selector, Request
from knowsmore.items import WeiboUserItem, WeiboStatusItem
from ..common import *
from ..model.mongodb import *

WEIBO_USER_CONFIG = {
    `BASE_URL` : `https://m.weibo.cn`,
    `USER_IDS` : [`6883966016`]
}

class WeiboUserSpider(scrapy.Spider):

    name = "weibo_user"

    def start_requests(self):
        for uid in WEIBO_USER_CONFIG[`USER_IDS`]:
            url = `%s/profile/info?uid=%s` % (WEIBO_USER_CONFIG[`BASE_URL`], uid)
            yield Request(url)
            # Define your statuses implementation here, just a demo below
            for i in range(1, 2):
                status_url = `%s/api/container/getIndex?containerid=230413%s_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=%d` % (WEIBO_USER_CONFIG[`BASE_URL`], uid, i)
                yield Request(status_url, callback=self.parse_status)

    # https://m.weibo.cn/profile/1784537661
    def parse(self, response):
        user_data = json.loads(response.text)
        yield WeiboUserItem(
            fans_url = user_data[`data`][`fans`],
            follow_url = user_data[`data`][`follow`],
            more_url = user_data[`data`][`more`],
            user = user_data[`data`][`user`]
        )

    # https://m.weibo.cn/api/container/getIndex?containerid=2304131784537661_-_WEIBO_SECOND_PROFILE_WEIBO&page_type=03&page=2
    def parse_status(self, response):
        status_data = json.loads(response.text)
        yield WeiboStatusItem(
            cards = status_data[`data`][`cards`]
        )

Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
Scrapy爬取新浪微博移動版使用者首頁第一條微博
2019-05-12
使用scrapy抓取Youtube播放列表資訊
2019-02-16
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
新浪微博分享不跳轉
2018-09-05
爬蟲實戰（三）：微博使用者資訊分析
2018-07-15
爬蟲
新浪微博資料中心：2019微博電影白皮書（附下載）
2020-03-05
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
新浪微博&艾漫資料：2019明星白皮書
2019-12-26
新浪微博API生成短連結
2019-02-16
API
轉發新浪微博程式猿心得
2018-10-28
新浪微博私信，即時聊天介面研究
2019-01-08
使用Scrapy抓取優酷視訊列表頁（電影/電視）
2019-02-16
PHP基於laravel框架獲取微博資料之一模擬新浪微博登入
2019-02-16
PHPLaravel框架
GitHub 上這款新浪微博爬蟲專案，‌讓你輕鬆掌握微博資料！‌
2024-08-31
Github爬蟲
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
Python 超簡單爬取新浪微博資料 (高階版)
2020-05-16
Python
微博迴應“使用者資訊被出售”事件：已上報司法機關
2020-03-23
事件
新浪微博app如何去喚起跳轉微信小程式
2021-05-29
APP微信小程式
新浪微博動態 RSA 分析圖文+登入
2024-05-20
獲取微信使用者基本資訊
2019-02-16
微信小程式獲取使用者資訊
2019-01-02
微信小程式
PHP 基於laravel框架獲取微博資料之二使用者資料的使用
2019-02-16
PHPLaravel框架
一篇文章教會你使用Python定時抓取微博評論
2021-09-09
Python
如何建立一個新浪微博應用以及獲得Access token
2018-11-04
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
微信小程式獲取使用者資訊方法
2019-01-30
微信小程式
微信小程式 getUserProfile 獲取使用者資訊
2021-04-16
微信小程式
修改 support 包 TabLayout，實現新浪微博/即刻 APP 蚯蚓導航效果
2019-03-04
TabLayoutAPP
新浪微博移動網頁端手勢驗證介面破解流程
2018-04-13
網頁
JAVA解密微信小程式使用者資訊encryptedData方案
2020-04-04
Java解密微信小程式
企業微信登入獲取使用者資訊
2021-03-11
微博資料中心：2017科技使用者分析報告（附下載）
2018-04-18
超5億LinkedIn使用者資訊遭販賣，疑為爬蟲抓取洩露
2021-04-21
爬蟲
如何使用SAP CRM WebClient UI實現一個類似新浪微博的字數統計器
2020-09-05
WebclientUI
2020年微博使用者發展報告（附下載）
2021-03-19

使用Scrapy抓取新浪微博使用者資訊

相關文章