【php爬蟲】百萬級別知乎使用者資料爬取與分析

佚名發表於2015-09-30

原文網址 : http://www.ityears.com/article/201510/5604.html

PHP爬蟲

這次抓取了110萬的使用者資料，資料分析結果如下：

PHP爬蟲資料抓取資料分析爬蟲抓取資料

開發前的準備

安裝linux系統（Ubuntu14.04），在VMWare虛擬機器下安裝一個Ubuntu；

安裝PHP5.6或以上版本；

安裝curl、pcntl擴充套件。

使用PHP的curl擴充套件抓取頁面資料

PHP的curl擴充套件是PHP支援的允許你與各種伺服器使用各種型別的協議進行連線和通訊的庫。

本程式是抓取知乎的使用者資料，要能訪問使用者個人頁面，需要使用者登入後的才能訪問。當我們在瀏覽器的頁面中點選一個使用者頭像連結進入使用者個人中心頁面的時候，之所以能夠看到使用者的資訊，是因為在點選連結的時候，瀏覽器幫你將本地的cookie帶上一齊提交到新的頁面，所以你就能進入到使用者的個人中心頁面。因此實現訪問個人頁面之前需要先獲得使用者的cookie資訊，然後在每次curl請求的時候帶上cookie資訊。在獲取cookie資訊方面，我是用了自己的cookie，在頁面中可以看到自己的cookie資訊：

PHP爬蟲資料抓取資料分析爬蟲抓取資料

一個個地複製，以"__utma=?;__utmb=?;"這樣的形式組成一個cookie字串。接下來就可以使用該cookie字串來傳送請求。

初始的示例：

    $url = 'http://www.zhihu.com/people/mora-hu/about'; 
    //此處mora-hu代表使用者ID    $ch = curl_init($url); 
    //初始化會話    curl_setopt($ch, CURLOPT_HEADER, 0);    
    curl_setopt($ch, CURLOPT_COOKIE, $this->config_arr['user_cookie']);  
    //設定請求COOKIE    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER['HTTP_USER_AGENT']);    
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
     //將curl_exec()獲取的資訊以檔案流的形式返回，而不是直接輸出。    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);     
     $result = curl_exec($ch);    
    return $result;  //抓取的結果

執行上面的程式碼可以獲得mora-hu使用者的個人中心頁面。利用該結果再使用正規表示式對頁面進行處理，就能獲取到姓名，性別等所需要抓取的資訊。

圖片防盜鏈

在對返回結果進行正則處理後輸出個人資訊的時候，發現在頁面中輸出使用者頭像時無法開啟。經過查閱資料得知，是因為知乎對圖片做了防盜鏈處理。解決方案就是請求圖片的時候在請求頭裡偽造一個referer。

在使用正規表示式獲取到圖片的連結之後，再發一次請求，這時候帶上圖片請求的來源，說明該請求來自知乎網站的轉發。具體例子如下：

function getImg($url, $u_id){    
    if (file_exists('./images/' . $u_id . ".jpg"))    
    {       
       return "images/$u_id" . '.jpg';    }    if (empty($url))    
    {        
       return ''; 
    }
    $context_options = array(         
 'http' =>          array(
            'header' => "Referer:http://www.zhihu.com"//帶上referer引數     　　)
　　);
          $context = stream_context_create($context_options);
      $img = file_get_contents('http:' . $url, FALSE, $context);
    file_put_contents('./images/' . $u_id . ".jpg", $img);
    return "images/$u_id" . '.jpg';}

爬取更多使用者

抓取了自己的個人資訊後，就需要再訪問使用者的關注者和關注了的使用者列表獲取更多的使用者資訊。然後一層一層地訪問。可以看到，在個人中心頁面裡，有兩個連結如下：

PHP爬蟲資料抓取資料分析爬蟲抓取資料

這裡有兩個連結，一個是關注了，另一個是關注者，以“關注了”的連結為例。用正則匹配去匹配到相應的連結，得到url之後用curl帶上cookie再發一次請求。抓取到使用者關注了的用於列表頁之後，可以得到下面的頁面：

PHP爬蟲資料抓取資料分析爬蟲抓取資料

分析頁面的html結構，因為只要得到使用者的資訊，所以只需要框住的這一塊的div內容，使用者名稱都在這裡面。可以看到，使用者關注了的頁面的url是：

PHP爬蟲資料抓取資料分析爬蟲抓取資料

不同的使用者的這個url幾乎是一樣的，不同的地方就在於使用者名稱那裡。用正則匹配拿到使用者名稱列表，一個一個地拼url，然後再逐個發請求（當然，一個一個是比較慢的，下面有解決方案，這個稍後會說到）。進入到新使用者的頁面之後，再重複上面的步驟，就這樣不斷迴圈，直到達到你所要的資料量。

分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python網路爬蟲實戰：爬取知乎話題下 18934 條回答資料
2019-01-17
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
Python爬蟲之小說資訊爬取與資料視覺化分析
2021-01-09
Python爬蟲視覺化
爬蟲爬取資料如何繞開限制？
2022-06-10
爬蟲
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
Java爬蟲與Python爬蟲的區別？
2023-10-25
Java爬蟲Python
爬蟲實戰——58同城租房資料爬取
2019-12-04
爬蟲
如何保障爬蟲高效穩定爬取資料？
2022-05-27
爬蟲
爬蟲實戰（一）：爬取微博使用者資訊
2018-07-15
爬蟲
Python爬蟲與Java爬蟲有何區別？
2022-06-01
Python爬蟲Java
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
爬蟲如何爬取貓眼電影TOP榜資料
2019-06-17
爬蟲
輕鬆利用Python爬蟲爬取你想要的資料
2021-09-10
Python爬蟲
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
python爬蟲專案（新手教程）之知乎（requests方式）
2018-06-13
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
IPIDEA乾貨|Java爬蟲與Python爬蟲的區別
2023-05-08
IdeaJava爬蟲Python
API商品資料介面呼叫實戰：爬蟲與資料獲取
2023-10-29
API爬蟲
60行程式碼爬取知乎神回覆
2018-11-15
行程
爬蟲之股票定向爬取
2018-12-06
爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
python爬蟲爬取豆瓣電影 1-10 ajax 資料
2024-07-04
Python爬蟲
Golang爬蟲，Go&&正則爬取資料，槓桿的
2022-01-13
Golang爬蟲
爬取資料時防止爬蟲被限制的四種方法
2022-06-07
爬蟲
新手小白的爬蟲神器-無程式碼高效爬取資料
2021-01-01
爬蟲
我爬取了爬蟲崗位薪資，分析後發現爬蟲真香
2020-12-09
爬蟲
資料分析專案（一）——爬蟲篇
2018-11-30
爬蟲

【php爬蟲】百萬級別知乎使用者資料爬取與分析

相關文章