PHP採集商家資訊及採集方法概述（上）薦

kefirking發表於2012-03-07

最近電子商務市場上面，有很多商家的導航，裡面收集了大量的商家資訊，如果從事電子商務的這些資訊還是有用的。我最近在做的一個專案就要用到這些資訊，但是你總不能給別人要吧，這樣別人是不給滴。所以只有自己爬了。以前也寫過幾個類似的爬蟲爬取一個站點的某些資訊總結說來就是

第一：確定要爬取的資源。

第二：確定爬取資源的資源地址（url）

第三：分析找出資源地址規律

第四：抓取資源地址。

第五：迴圈獲取地址的內容

第六：匹配抓取內容入庫

第六：完結，使用抓取資料。

上一次爬取的是一淘的商家資訊，大概有5000個商家資訊。當時匹配用的是正則匹配，整個html的正則有時候比較麻煩。這次用的是phpquery（這裡做個簡介，稍後會單獨寫一篇介紹的文章）。

這一次爬取一家網(shop.yijia.com）的資料商家資訊有100000個，這次把爬取的思路和相關程式碼給大家分享下，以便有以後有相同或者類似的需求的參考交流學習。如果有需要這次爬取的資料的留言吧，可以給。

爬取開始………..

第一：

確定爬取的資源。我要爬取的是商家資訊，這個網站號稱“商城超過500家並從萬餘家電子商務網站中精選23個分類，最後我確實爬取到90585個商家，去除重複的無效的大概也有50000+的有效商家列表。那麼我要爬取的就是這些商家資訊，如果每一個商家是一個record那麼我大概要爬取10萬條資料。

第二：

確定爬取資源地址。一家網的商家地址在shop.yijia.com。商家分為二級分類，一級大類例如:服裝飾品，美容護髮，數碼產品等。在一級下面有二級分類，二級下面就直接是商家列表，每一頁是十個。一家網的規律很好找

我們來找一些例子分析….

第一級大類：

服裝飾品：http://shop.yijia.com/listshop/index_1/

美容護髮:http://shop.yijia.com/listshop/index_2/

數碼產品:http://shop.yijia.com/listshop/index_1048/

一類的大類其實只有十來個，我沒有爬取直接手動新增了。（爬取是為了簡化勞動，如果為了十來條資料去寫個爬蟲，就不值當了）

第二級類別：我們拿服裝飾品下面分類（女裝,女鞋，女包，男裝，男鞋，男包）的來舉例，

女裝，http://shop.yijia.com/listshop/index_1_25/

女鞋：http://shop.yijia.com/listshop/index_1_26/

女包：http://shop.yijia.com/listshop/index_1_27/

很明顯的規律，這裡就細說了，如果這個觀察不出來，那個就不要採集了

然後分類下面的分頁我們拿女裝來舉例

第一頁：http://shop.yijia.com/listshop/index_1_25_0_0_1/

第二頁：http://shop.yijia.com/listshop/index_1_25_0_0_2/

第三頁：http://shop.yijia.com/listshop/index_1_25_0_0_3/

第三：

分析資源地址規律，這裡比較簡單的規律，其實一般統一網站的資源型別資源地址不會差別太大，

關鍵是最後一個引數index_x_y_0_0_z

其中x 一級分類 y二級分類 z分頁至於當中兩個0幹嘛的我也不知道。觀察抽取分析後就是都是這樣的。

第四：抓取資源地址，抓取後我們不能隨便的儲存是吧，最好能分類儲存，這裡就設計到一個本地資料庫的設計，可以參考的猜解。

第一步：一級分類入庫，我這裡手動拷貝的畢竟只有十來條

第二步：抓取二級分類，這裡觀察頁面結構可以發現，一級分類頁面中的內容中頁面結構相似在一級分類頁面的一個div是儲存二級分類的目錄樹的 dd id=”dd_open_1″ 裡面的

<dd id="dd_open_1">  
<ul>  
    <li class="sel"><a href="/listshop/index_1_25/" target="_self">女裝</a></li> 
    <li><a href="/listshop/index_1_26/" target="_self">女鞋</a></li> 
    <li><a href="/listshop/index_1_27/" target="_self">女包</a></li> 
    <li><a href="/listshop/index_1_28/" target="_self">男裝</a></li> 
    <li><a href="/listshop/index_1_29/" target="_self">男鞋</a></li> 
    <li><a href="/listshop/index_1_30/" target="_self">男包</a></li> 
    <li><a href="/listshop/index_1_31/" target="_self">內衣</a></li> 
    <li><a href="/listshop/index_1_32/" target="_self">配飾</a></li> 
    <li><a href="/listshop/index_1_33/" target="_self">飾品</a></li> 
    <li><a href="/listshop/index_1_34/" target="_self">運動服飾</a></li> 
    <li><a href="/listshop/index_1_1086/" target="_self">成衣定製</a></li> 
</ul>  
</dd>

那麼好的規律找到了哦只要在每個一級頁面裡面的id為dd_open_1裡面的ul就行了

迴圈是一個一級分類的頁面內容然後抓取裡面的li 和對應的href

然後是二級分類對應的分頁數量

進入一個二級分類然後檢視這裡有不同的方法不過這要找到有一種可行就可以了我說下我的，如果有分頁那麼一定會有一個尾頁那麼尾頁的url中的最後一個引數是

（int a）/ 那麼 a就是這個分頁的數量

我們來看個示例

<div class="pager cardlist03"><a href="/listshop/index_1_25_0_0_1/" target="_self">首頁</a> 
    <a href="/listshop/index_1_25_0_0_1/" target="_self">上一頁</a> 
    <a href="/listshop/index_1_25_0_0_1/" target="_self">1</a> 
    &nbsp;2&nbsp;<a href="/listshop/index_1_25_0_0_3/" target="_self">3</a> 
    <a href="/listshop/index_1_25_0_0_4/" target="_self">4</a> 
    <a href="/listshop/index_1_25_0_0_5/" target="_self">5</a> 
    <a href="/listshop/index_1_25_0_0_3/" target="_self">下一頁</a> 
    <a href="/listshop/index_1_25_0_0_500/" target="_self">尾頁</a> 
    &nbsp;共500頁&nbsp;到第 
    <!-- .....省略輸入框程式碼 太長了 不好截斷 哈哈 --> 
</div>

我的做法是取得 div class=”pager” 的這個然後取得裡面的最後一個a標籤

獲取他的屬性href 用explode 已‘_’ 截斷然後取得的數值就是他如果沒有就預設一頁如果有就是相應的頁數。

然後在最後的商家頁面中有我們需要的兩個資訊，商家簡介和url 。logo在商家列表頁裡面可以獲得。這個就說了見程式碼吧。

這樣我們得到了所有的資源路徑（規律，推出所有的分類）

下面的就是採集階段了。

這裡就不多說了直接上程式碼。

注意：

第一：這裡分了三個小指令碼，因為是在pc上跑。如果在伺服器上可以合成一個來跑。

第二：不要惡意和暴力採集，這樣對大家都不好，會被當成DDOS ***遮蔽你的ip或者給網站伺服器太大壓力致使崩潰的。剛開始就被封了IP 然後我這裡一次採集後sleep(1) 就沒什麼問題了。

程式碼相關

資料庫結構

`yj_shop_category`, `CREATE TABLE `yj_shop_category` ( 
  `sc_id` int(10) NOT NULL AUTO_INCREMENT COMMENT `主鍵id`, 
  `sc_name` varchar(255) NOT NULL COMMENT `分類名稱`, 
  `sc_parent_id` int(10) NOT NULL DEFAULT `0` COMMENT `父類id`, 
  `sc_url` varchar(255) NOT NULL COMMENT `分類url`, 
  `sc_page_num` int(6) NOT NULL COMMENT `共多少個分頁`, 
  `sc_current_page_num` int(6) NOT NULL DEFAULT `1` COMMENT `當前採集頁`, 
  `sc_add_time` int(10) NOT NULL COMMENT `增加時間`, 
  `is_grab` tinyint(1) NOT NULL DEFAULT `0` COMMENT `是否採集過`, 
  PRIMARY KEY (`sc_id`) 
) ENGINE=InnoDB AUTO_INCREMENT=126 DEFAULT CHARSET=utf8` 
 
`yj_shop_information`, `CREATE TABLE `yj_shop_information` ( 
  `si_id` int(10) NOT NULL AUTO_INCREMENT COMMENT `商家主鍵`, 
  `si_name` varchar(255) NOT NULL COMMENT `商家名稱`, 
  `si_cat_id` int(10) NOT NULL COMMENT `商家所屬分類`, 
  `si_shop_url` varchar(255) NOT NULL COMMENT `一家中的商家url`, 
  `si_true_url` varchar(255) NOT NULL COMMENT `實際url`, 
  `si_yijia_url` varchar(255) NOT NULL COMMENT `一家中商家簡介頁面`, 
  `si_logo_url` varchar(255) NOT NULL COMMENT `logo圖片地址`, 
  `si_desc` text NOT NULL COMMENT `詳細描述`, 
  `si_front_desc` text NOT NULL COMMENT `簡介描述`, 
  `si_add_time` int(10) NOT NULL COMMENT `增加時間`, 
  PRIMARY KEY (`si_id`) 
) ENGINE=InnoDB AUTO_INCREMENT=86367 DEFAULT CHARSET=utf8`

這一篇就到這裡然後我們下一篇說具體的採集程式碼

PHP採集商家資訊及採集方法概述（下）

PHP採集商家資訊及採集方法概述（下）
2017-11-07
PHP
淘寶商家電話採集，淘寶天貓商家號碼採集軟體
2023-09-26
PHP使用DOMDocument採集
2017-11-12
PHP
PHP - curl實現採集
2017-05-17
PHP
iOS視訊流採集概述(AVCaptureSession)
2019-04-13
iOSAPTSession
抖店商家電話採集軟體抖音小店店鋪電話批次採集工具
2024-10-10
人員基礎資訊採集
2020-10-27
圖書網站資訊採集
2023-11-10
網站
工商資訊資料採集思路
2022-06-09
AWR資料採集方法
2013-12-30
自媒體素材採集平臺，素材採集方法都有這些
2021-03-12
地圖資料採集，包括百度地圖採集，高德地圖採集，360地圖採集
2024-04-28
地圖
阿里國際站商家採集軟體實時匯出店鋪資訊
2021-10-05
阿里
Prometheus採集Java程式指標資訊
2023-05-15
PrometheusJava指標
API採集介面原始碼電商採集工具介面
2023-04-06
API原始碼
1688國際站商家電話採集工具分享
2024-01-03
分享淘寶採集商家電話軟體的步驟
2023-09-25
淘寶商家店鋪電話採集軟體使用教程
2023-09-16
抖音小店商家電話採集軟體使用指南
2023-09-21
出行平臺採集機票價格資訊
2023-11-14
採集網站特殊檔案Meta資訊
2017-01-19
網站
PHP 採集程式中日常的引數
2019-05-11
PHP
PHP使用QueryList採集微信文章頁
2019-02-16
PHP
PHP 資料採集的一種思路
2019-01-04
PHP
php採集遠端文章簡單類
2015-07-16
PHP
dede採集教程
2014-11-25
阿里國際站店鋪採集軟體實時匯出商家號碼資訊
2021-09-25
阿里
資料採集的方法有哪些
2019-06-12
三菱數控採集方法
2024-03-11
使用火蜘蛛採集器Firespider採集天貓商品資料並上傳到微店
2014-11-06
IDE
自媒體素材採集平臺，採集影片文章素材
2020-07-10
高併發資料採集：Ebay商家資訊多程式爬蟲的進階實踐
2024-02-28
爬蟲
阿里國際站商家聯絡方式採集軟體使用教程
2024-01-08
阿里
使用爬蟲實現拼多多商家電話採集軟體
2023-09-26
爬蟲
【資料分析】抖音商家電話採集軟體資料分析
2023-11-23
ASP.NET 2.0 網頁採集方法
2008-09-24
ASP.NET網頁
日誌採集/分析
2024-06-30
.NET 音訊採集
2024-08-24
音訊

PHP採集商家資訊及採集方法概述（上）薦

第一：

第二：

第三：

相關文章