手把手教你寫電商爬蟲(2):實戰尚妝網分頁商品採集爬蟲

發表於2016-08-01

如果沒有看過第一課的朋友，請先移步第一課，第一課講了一些基礎性的東西，通過軟柿子”切糕王子”這個電商網站好好的練了一次手，相信大家都應該對寫爬蟲的流程有了一個大概的瞭解，那麼這課我們們就話不多說，正式上戰場，對壘尚妝網。

首先，向我們被爬網站致敬，沒有他們提供資料，我們更是無從爬起，所以先安利一下尚妝網：

經營化妝品時尚購物，大資料為驅動，並依託智慧首飾為入口的新一代智慧美妝正品電子商務平臺。其創始團隊來自天貓、支付寶、歐萊雅、薇姿等網際網路公司和化妝品集團。
好吧，我很懶，直接從百度知道里抄過來的，不過不代表我沒有誠意。OK，言歸正傳，我們先把我們的工具包拿出來：

1、神箭手雲爬蟲，2、Chrome瀏覽器 3、Chrome的外掛XpathHelper 不知道是幹嘛的同學請移步第一課

古代戰士上戰場前，必須先好好的觀察對手，所謂知己知彼，百戰不殆。我們先來觀察一下尚妝網

手把手教你寫電商爬蟲(2):實戰尚妝網分頁商品採集爬蟲

從首頁大家能看出什麼？說美女很美的，還有說美女表情很到位的同學，你們可以先回家了。
手把手教你寫電商爬蟲(2):實戰尚妝網分頁商品採集爬蟲

剩下的同學，我們繼續了：

可以看出，作為一個完善的電商網站，尚妝網有著普通電商網站所擁有的主要的元素，包括分類，分頁，主題等等。首先我們要確定我們希望要爬取哪一類資料，當然作為爬蟲來說，全部爬下來不是不行，不過對於做實驗來說，就沒必要了。好，我們假設：我們要爬護膚裡的面膜品類所有商品，價格和銷量，至於為什麼是面膜，你們猜呢？

廢話太多了，我們開始爬蟲三步走，跟著我再背誦一遍：1、選入口Url 2、限定內容頁和中間頁 3、寫內容頁抽取規則

1、選定入口url

這個簡單，找到面膜頁面的地址：

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C

1 2	http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C

好，就是它了。

2、區分內容頁和中間頁

好，重點來了，尚妝網的列表頁面，是通過ajax動態載入了，這個怎麼實現呢？我們先不著急，先看下內容頁

http://item.showjoy.com/sku/26551.html

http://item.showjoy.com/sku/100374.html

http://item.showjoy.com/sku/26551.html

http://item.showjoy.com/sku/100374.html

內容頁很簡單，我們直接提取成正規表示式

http://item\\.showjoy\\.com/sku/\\d+\\.html

1 2	http://item\\.showjoy\\.com/sku/\\d+\\.html

那麼列表頁呢？首先，第一個當然是：

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C

1 2	http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C

下一頁的連結是什麼呢？這個時候就需要藉助chrome瀏覽器的開發者工具，我們開啟工具，切換到network選項卡，向下滑動載入下一頁，可以看到展示出的連線地址：

手把手教你寫電商爬蟲(2):實戰尚妝網分頁商品採集爬蟲

注意，可以忽略掉png這些圖片的檔案，直接看到下一頁的連線，我們將連結複製出來：

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C&stock=1&page=4&_synToken=59a6c555b0947486769f35d010353cd5

1 2	http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C&stock=1&page=4&_synToken=59a6c555b0947486769f35d010353cd5

看著好像很複雜，不過page我認識，其他的可以去掉嗎？我們試一下訪問

http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C&page=4

1 2	http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C&page=4

貌似正常開啟，而且也可以顯示不同的商品，就此我們可以看出來，這個ajax載入下一頁不過是一個紙老虎，根本沒什麼可怕的。我們將這個提取成正規表示式，另外值得注意的是，由於我們第一頁可能是沒有page的，所以也需要考慮沒有page引數的情況
6

http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(&page=\d+)?

1 2	http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(&page=\d+)?

第三步：就是寫內容頁的抽取規則了，我們就抽取商品名稱，評價數和成交數這三項資料吧，有人要問了，為啥不要價格呢。我只能說，too young too native，你開啟商品頁面的時候，有沒有注意到價格的地方也一個快速的非同步載入。考慮到我們們畢竟才第二課，而且剛剛還沒那個ajax搞得虎軀一震，差一點把這節課改成第三課，所以我們們這裡先降低點難度，下一課我們們用一節課的時間來探討下這個價格該怎麼提取。

手把手教你寫電商爬蟲(2):實戰尚妝網分頁商品採集爬蟲

根據前面課程教的方案，我們同樣的方法，寫出xpath：

標題：  //h3[contains(@class,"choose-hd")]

評價： //div[contains(@class,"dtabs-hd")]/ul/li[2]

成交記錄：//div[contains(@class,"dtabs-hd")]/ul/li[3]

標題： //h3[contains(@class,"choose-hd")]

評價： //div[contains(@class,"dtabs-hd")]/ul/li[2]

成交記錄：//div[contains(@class,"dtabs-hd")]/ul/li[3]

通過xpath helper進行驗證之後沒有問題，這樣我們可以組合程式碼得到下面的結果

var configs = {  
    domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com"],  
    scanUrls: ["http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C"],  
    contentUrlRegexes: ["http://item\\.showjoy\\.com/sku/\\d+\\.html"],  
    helperUrlRegexes: ["http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(\\&page=\\d+)?"],//可留空  
    fields: [  
        {  
            // 第一個抽取項  
            name: "title",  
            selector: "//h3[contains(@class,'choose-hd')]",//預設使用XPath  
            required: true //是否不能為空  
        },  
        {  
            // 第二個抽取項  
            name: "comment",  
            selector: "//div[contains(@class,'dtabs-hd')]/ul/li[2]",//使用正則的抽取規則  
            required: false //是否不能為空  
        },  
        {  
            // 第三個抽取項  
            name: "sales",  
            selector: "//div[contains(@class,'dtabs-hd')]/ul/li[3]",//使用正則的抽取規則  
            required: false //是否不能為空  
        }  
    ]  
};  
  
start(configs);

var configs = {

domains: ["www.showjoy.com","list.showjoy.com","item.showjoy.com"],

scanUrls: ["http://list.showjoy.com/search/?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C"],

contentUrlRegexes: ["http://item\\.showjoy\\.com/sku/\\d+\\.html"],

helperUrlRegexes: ["http://list\\.showjoy\\.com/search/\\?q=cateIds%3A1,cateName%3A%E9%9D%A2%E8%86%9C(\\&page=\\d+)?"],//可留空

fields: [

{

// 第一個抽取項

selector: "//h3[contains(@class,'choose-hd')]",//預設使用XPath

required: true //是否不能為空

{

// 第二個抽取項

selector: "//div[contains(@class,'dtabs-hd')]/ul/li[2]",//使用正則的抽取規則

required: false //是否不能為空

{

// 第三個抽取項

selector: "//div[contains(@class,'dtabs-hd')]/ul/li[3]",//使用正則的抽取規則

required: false //是否不能為空

}

]

};

start(configs);

可以看到在domains裡我填入了三個域名，這裡是一定要注意的，因為他的列表頁和詳情頁的域名都不一致，因此需要把每一個域名都寫進去。
好了，程式碼執行正常，但是啟動任務之後發現，怎麼第二頁的內容沒有采集到呢？還有前面說的價格我們們也採集不到，到底還能不能愉快的玩耍了呢？我們第三課就給大家講講如何解決ajax頁面的url發現和ajax載入內容的提取。

手把手教你寫網路爬蟲（2）：迷你爬蟲架構
2018-04-27
爬蟲架構
手把手教你寫網路爬蟲（5）：PhantomJS實戰
2018-05-06
爬蟲JS
Python爬蟲：手把手教你寫迷你爬蟲架構
2020-07-10
Python爬蟲架構
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
手把手教你寫網路爬蟲（3）：開源爬蟲框架對比
2018-04-28
爬蟲框架
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
手把手教你寫網路爬蟲（4）：Scrapy入門
2018-05-05
爬蟲
手把手教你寫網路爬蟲（7）：URL去重
2018-05-14
爬蟲
[Python3網路爬蟲開發實戰] 2-爬蟲基礎 2-網頁基礎
2018-03-08
Python爬蟲網頁
《網頁爬蟲》
2018-11-26
網頁爬蟲
網路爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python程式碼）
2019-04-24
爬蟲網頁Python
超貼心的，手把手教你寫爬蟲
2021-01-14
爬蟲
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python網路爬蟲資料採集實戰：Requests和Re庫
2020-03-22
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲
Python爬蟲實戰：爬取淘寶的商品資訊
2021-09-11
Python爬蟲
用Node寫頁面爬蟲的工具集
2018-10-24
爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
API商品資料介面呼叫爬蟲實戰
2023-10-27
API爬蟲
Python靜態網頁爬蟲專案實戰
2020-05-01
Python網頁爬蟲
python爬蟲實戰，爬蟲之路，永無止境
2022-01-27
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python 爬蟲實戰
2023-10-16
Python爬蟲
手把手教你寫網路爬蟲（1）：網易雲音樂歌單
2018-04-27
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
Java爬蟲實戰：API商品資料介面呼叫
2023-10-26
Java爬蟲API
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
LLM實戰：當網頁爬蟲整合gpt3.5
2024-05-20
網頁爬蟲GPT
頁面資料採集——網路爬蟲實戰（ASP.NET Web 部落格園為例）
2020-12-25
爬蟲ASP.NETWeb
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
使用爬蟲實現拼多多商家電話採集軟體
2023-09-26
爬蟲
新手爬蟲，教你爬掘金（二）
2019-03-03
爬蟲
爬蟲——網頁爬取方法和網頁解析方法
2020-12-07
爬蟲網頁

手把手教你寫電商爬蟲(2):實戰尚妝網分頁商品採集爬蟲

相關文章