用python編寫的抓京東商品價格的爬蟲

pythontab發表於2014-01-02

閒著沒事嘗試抓一下京東的資料，需要使用到的庫有：BeautifulSoup，urllib2，在Python2下測試透過

from creepy import Crawler
from BeautifulSoup import BeautifulSoup
import urllib2
import json

class MyCrawler(Crawler):
    def process_document(self, doc):
        if doc.status == 200:
            print '[%d] %s' % (doc.status, doc.url)
            try:
                soup = BeautifulSoup(doc.text.decode('gb18030').encode('utf-8'))
            except Exception as e:
                print e
                soup = BeautifulSoup(doc.text)
            print soup.find(id="product-intro").div.h1.text
            url_id=urllib2.unquote(doc.url).decode('utf8').split('/')[-1].split('.')[0]
            f = urllib2.urlopen('http://p.3.cn/prices/get?skuid=J_'+url_id,timeout=5)
            price=json.loads(f.read())
            f.close()
            print price[0]['p']
        else:
            pass

crawler = MyCrawler()
crawler.set_follow_mode(Crawler.F_SAME_HOST)
crawler.set_concurrency_level(16)
crawler.add_url_filter('\.(jpg|jpeg|gif|png|js|css|swf)$')
crawler.crawl('http://item.jd.com/982040.html')

部分執行結果：

[200] http://item.jd.com/519836.html

三星 HM1200 原裝藍芽耳機黑色

118.00

[200] http://item.jd.com/603133.html

捷波朗 EASYVOICE+ 易音藍芽耳機黑色

-1

[200] http://item.jd.com/1030552473.html

【年終熱賣】嘉源手機N699 2.8寸雙屏雙卡雙待雙電2000毫安翻蓋手機黑

268.00

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）
2018-06-27
Python爬蟲
Python爬蟲爬取淘寶，京東商品資訊
2020-02-11
Python爬蟲
京東商品資訊爬蟲
2017-08-14
爬蟲
Python爬蟲——實戰一：爬取京東產品價格(逆向工程方法)
2017-08-15
Python爬蟲
5 個用 Python 編寫 web 爬蟲的方法
2018-05-20
PythonWeb爬蟲
《用Python寫網路爬蟲》--編寫第一個網路爬蟲
2017-03-30
Python爬蟲
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
Python 爬蟲、抓包
2020-05-04
Python爬蟲
用python語言編寫網路爬蟲
2017-08-11
Python爬蟲
github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合
2022-02-18
GithubPython爬蟲
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
使用JavaScript編寫的爬蟲程式
2023-11-07
JavaScript爬蟲
Python使用Mechanize模組編寫爬蟲的要點解析
2016-04-07
Python爬蟲
京東商品列表介面，商品銷量排序介面，商品價格排序介面程式碼展示
2023-02-27
排序
用Python寫一個簡單的微博爬蟲
2016-03-03
Python爬蟲
python爬蟲是什麼?為什麼用python語言寫爬蟲？
2022-04-02
Python爬蟲
使用 Typhoeus 和 Ruby 編寫的爬蟲程式
2023-10-19
爬蟲
Python爬蟲——實戰二：爬取天貓產品價格(逆向工程方法)
2017-08-17
Python爬蟲
Python爬蟲(2):Coursera抓站小結
2016-08-01
Python爬蟲
什麼是網路爬蟲?為什麼用Python寫爬蟲?
2021-03-08
爬蟲Python
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中（2）
2018-12-27
爬蟲PythonExcel
京東商品圖片自動下載抓取 c# 爬蟲
2020-09-30
C#爬蟲
利用python編寫爬蟲爬取淘寶奶粉部分資料.1
2021-09-09
Python爬蟲
編寫一個使用wreq庫的爬蟲程式
2023-11-23
爬蟲
C語言爬蟲程式編寫的爬取APP通用模板
2024-01-17
C語言爬蟲APP
為什麼寫爬蟲用Python語言?
2020-12-01
爬蟲Python
如何用python爬蟲分析動態網頁的商品資訊？
2021-09-11
Python爬蟲網頁
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
用Node寫頁面爬蟲的工具集
2018-10-24
爬蟲
使用python/casperjs編寫終極爬蟲-客戶端App的抓取
2015-08-31
PythonJS爬蟲客戶端APP
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Python爬蟲：手把手教你寫迷你爬蟲架構
2020-07-10
Python爬蟲架構
基於nodejs編寫小爬蟲
2019-02-16
NodeJS爬蟲
如何編寫一個Perl爬蟲程式
2023-11-14
爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python

用python編寫的抓京東商品價格的爬蟲

相關文章