PHP模擬登陸抓取頁面內容

pythontab發表於2016-07-02

平時開發中經常會遇到抓取某個頁面內容, 但是有時候某些頁面需要登陸才能訪問, 最常見的就是論壇, 這時候我們需要來使用curl模擬登陸。 大致思路:需要先請求提取 cookies 並儲存,然後利用儲存下來的這個cookies再次傳送請求來獲取頁面內容,下面我們直接上程式碼

<?php
/**
 * @Brief PHP讀取Curl模擬登陸, 獲取cookie, 帶cookie進行請求
 * @Date: 2016/7/2
 * @Time: 9:41
 */
//設定cookie儲存位置
$cookieFile = dirname(__FILE__).'cookie.curl.tmp';
//第一步:獲取cookie
$url = 'http://www.pythontab.com';
$data = array(
    'username'  => 'pythontab',
    'password'  => 'pythontab',
);
//curl初始化
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
//設定為post請求
curl_setopt($ch, CURLOPT_POST, true);
//設定附帶返回header資訊為空
curl_setopt($ch, CURLOPT_HEADER, 0);
//post資料
curl_setopt($ch, CURLOPT_POSTFIELDS, $data);
//cookie儲存檔案位置
curl_setopt($ch, CURLOPT_COOKIEJAR, $cookieFile);
//設定資料返回作為變數儲存,而不是直接輸出
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
//執行請求
$ret = curl_exec($ch);
//關閉連線
curl_close($ch);
//第二步:附帶cookie請求需要登陸的頁面
$url = 'http://www.pythontab.com';
//curl初始化
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
//設定為post請求
curl_setopt($ch, CURLOPT_POST, true);
//設定附帶返回header資訊為空
curl_setopt($ch, CURLOPT_HEADER, 0);
//設定cookie資訊檔案位置, 注意與第二步中的獲取不同,這裡是讀取
curl_setopt($ch, CURLOPT_COOKIEFILE, $cookieFile);
//設定資料返回作為變數儲存,而不是直接輸出
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
//執行請求
$ret = curl_exec($ch);
//關閉連線
curl_close($ch);
//列印抓取內容
var_dump($ret);


這樣我們就抓取到了需要登陸才能訪問頁面的內容, 注意上面的地址只是一個示例,需要換成你想要抓取頁面的地址。 這樣我們就可以做到很多事情了, 千萬不要做壞事哦!


相關文章