用thinkphp寫的一個例子:抓取網站的內容並且儲存到本地

魔豆發表於2016-10-24

我需要寫這麼一個例子,到電子課本網下載一本電子書。

電子課本網的電子書,是把書的每一頁當成一個圖片,然後一本書就是有很多張圖片,我需要批量的進行下載圖片操作。

下面是程式碼部分:

    public function download() {
        $http = new \Org\Net\Http();
        $url_pref = "http://www.dzkbw.com/books/rjb/dili/xc7s/";
        $localUrl = "Public/bookcover/";
        $reg="|showImg\('(.+)'\);|";
        $i=1;
        
        do {
            $filename = substr("000".$i,-3).".htm";
            $ch = curl_init();
            curl_setopt($ch, CURLOPT_URL, $url_pref.$filename);
            curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
            curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);
            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
            $html = curl_exec($ch);
            curl_close($ch);
            
            $result = preg_match_all($reg,$html,$out, PREG_PATTERN_ORDER);
            if($result==1) {
                $picUrl = $out[1][0];
                $picFilename = substr("000".$i,-3).".jpg";
                $http->curlDownload($picUrl, $localUrl.$picFilename);
            }
            $i = $i+1;
        } while ($result==1);

        echo "下載完成";
    }

我這裡是以人教版地理七年級地理上冊為例子 http://www.dzkbw.com/books/rjb/dili/xc7s/001.htm

網頁是從001.htm開始,然後數字一直加

每個網頁裡面都有一張圖,就是對應課本的內容,以圖片的形式展示課本內容

我的程式碼是做了一個迴圈,從第一頁開始抓,一直抓到找不到網頁裡的圖片為止

抓到網頁的內容後,把網頁裡面的圖片抓取到本地伺服器

抓取後的實際效果:

 

相關文章