如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料

yiniuyun0發表於2019-05-15

原文網址 : http://www.ituring.com.cn/article/507689

什麼是代理？什麼情況下會用到代理IP？代理伺服器（Proxy Server），其功能就是代使用者去取得網路資訊，然後返回給使用者。形象的說：它是網路資訊的中轉站。通過代理IP訪問目標站，可以隱藏使用者的真實IP。比如你要抓取一個網站資料，該網站有100萬條內容，他們做了IP限制，每個IP每小時只能抓1000條，如果單個IP去抓因為受限，需要40天左右才能採集完，如果用了代理IP，不停的切換IP，就可以突破每小時1000條的頻率限制，從而提高效率。

其他想切換IP或者隱藏身份的場景也會用到代理IP，比如SEO等。

代理IP有開放代理也有私密代理，開放代理是全網掃描而來的，不穩定，不適合爬蟲，如果自己隨便用用還好。用爬蟲抓資料，最好使用私密代理。私密代理網上有很多提供商，穩定性參差不齊，現在我們公司使用的是“億牛雲”提供的私密代理。我們公司有個專案是抓取亞馬遜資料來進行分析銷量、評論等，用PHP進行抓取，抓取亞馬遜要特別注意header頭，否則輸出的資料就是空了。我們之前是使用的其他家代理的api模式的，但是自己管理ip池覺得很麻煩，所以選擇了億牛雲提供的爬蟲代理，動態轉發模式的，不需要我們自己管理ip池，直接進行資料採集，這很方便也節約了很多時間。

    $url = "https://www.amazon.com/dp/B01H2S9F6C";
    $urls = "https://httpbin.org/ip";

    define("PROXY_SERVER", "tcp://t.16yun.cn:31111");

    define("PROXY_USER", "16YUN123");
    define("PROXY_PASS", "123456");

    $proxyAuth = base64_encode(PROXY_USER . ":" . PROXY_PASS);

    $tunnel = rand(1,10000);

    $headers = implode("\r\n", [
        "Proxy-Authorization: Basic {$proxyAuth}",
        "Proxy-Tunnel: ${tunnel}",
    ]);
    $sniServer = parse_url($urls, PHP_URL_HOST);
    $options = [
        "http" => [
            "proxy"  => PROXY_SERVER,
            "header" => $headers,
            "method" => "GET",
            'request_fulluri' => true,
        ],
        'ssl' => array(
                'SNI_enabled' => true, // Disable SNI for https over http proxies
                'SNI_server_name' => $sniServer
        )
    ];
    print($url);
    $context = stream_context_create($options);
    $result = file_get_contents($url, false, $context);
    var_dump($result);
    print($urls);
    $context = stream_context_create($options);
    $result = file_get_contents($urls, false, $context);
    var_dump($result);?>

網路爬蟲如何獲取IP進行資料抓取
2022-05-19
爬蟲
Python爬蟲抓取資料，為什麼要使用代理IP？
2022-12-27
Python爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
用Python爬蟲抓取代理IP
2019-04-17
Python爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
使用代理IP抓取資料需要注意什麼？
2023-02-03
使用代理IP抓取資料的四大優勢
2022-06-09
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
Python爬蟲如何去抓取qq音樂的歌手資料？
2021-03-19
Python爬蟲
爬蟲ip如何加入到程式碼裡實現自動化資料抓取
2023-10-17
爬蟲
利用IP代理進行網路抓取可以幫助企業收集哪些資料？
2022-02-26
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
爬蟲進階——動態網頁Ajax資料抓取（簡易版）
2024-04-12
爬蟲網頁
用代理IP抓取大資料有什麼好處？
2022-11-22
大資料
Python爬蟲二：抓取京東商品列表頁面資訊
2018-06-26
Python爬蟲
Python爬蟲新手教程：手機APP資料抓取 pyspider
2019-07-20
Python爬蟲APPIDE
讓爬蟲無障礙抓取上千萬APP資料
2019-05-16
爬蟲APP
爬蟲app資訊抓取之apk反編譯抓取
2019-05-10
爬蟲APPAPK編譯
使用代理IP抓取社交媒體資料對企業有哪些作用？
2022-06-13
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
Python抓取淘寶IP地址資料
2019-04-26
Python
Javascript抓取京東、淘寶商品資料
2023-10-19
JavaScript
電商API介面：京東按關鍵字搜尋商品批次抓取資料爬蟲
2023-02-23
API爬蟲
python爬蟲利用代理IP分析大資料
2020-12-01
Python爬蟲大資料
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
爬蟲可以通過代理ip收集哪些資料？
2022-05-21
爬蟲
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
爬蟲如何使用ip代理池
2021-09-11
爬蟲
如何高效獲取大資料?動態ip代理：用爬蟲!
2019-01-24
大資料爬蟲
IPIDEA大盤點，藉助網路爬蟲抓取資料的作用？
2023-04-27
Idea爬蟲
Python爬蟲新手教程：微醫掛號網醫生資料抓取
2019-07-20
Python爬蟲
1688 API分享：抓取1688商品詳情頁資料
2023-02-28
API
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
使用代理進行抓取的四個優勢
2022-03-25
資料採集爬蟲ip代理基本原理
2019-04-26
爬蟲
企業進行資料抓取時要注意什麼？
2022-11-28
藉助代理IP進行網頁抓取的終極指南
2023-03-06
網頁
18.2 使用NPCAP庫抓取資料包
2023-10-26
PCA

如何使用代理IP進行資料抓取，PHP爬蟲抓取亞馬遜商品資料

相關文章