CURL抓取網頁內容並用正則提取。

守護大白菜發表於2017-06-05

    <?php  
    header("Content-Type:text/html;charset=UTF-8");  
    /* 
     * CURL網頁抓取 
     * */  
    class Curl{  
        var $setopt;  
        var $data;  
        function __construct($url){  
            $this->setopt =array(  
        CURLOPT_URL => "$url",  
        CURLOPT_RETURNTRANSFER => true,  
        CURLOPT_FOLLOWLOCATION => true,  
    );  
        }  
        function exec(){  
            $ch = curl_init();  
            curl_setopt_array($ch,$this->setopt);  
            $this->data = curl_exec($ch);  
            curl_close($ch);  
            return $this->data;  
        }  
    };  
    /* 
     * 抓取回來的網頁進行正則查詢 
     * id是按ID查詢內容 
     * tagName是標籤查詢 
     * className按類名查詢*/  
    class Preg{  
        function id($data,$id){  
            preg_match('/<(.*)\s*id=.*('.$id.').*>\s*(.*)\s*<\/(.*)>/',$data,$str);  
            return $str[0];  
        }  
          
        function tagName($data,$tag){  
            preg_match('/<'.$tag.'.*>\s*(.*)\s*<\/'.$tag.'>/',$data,$str);  
            return $str[1];  
        }  
          
        function className($data,$class){  
            preg_match('/<(.*)\s*class=.*('.$class.').*>\s*(.*)\s*<\/(.*)>/',$data,$str);  
            return $str[0];  
        }  
          
    }  
      
    $c = new Curl('http://www.baidu.com');  
    $data = $c->exec();  
    $data = @iconv("gb2312", "utf-8",$data);  
    $preg = new Preg();  
    echo $preg->tagName($data,'div');

轉自: http://blog.csdn.net/qq435792305/article/details/8502027

網頁提取資料常用正則
2018-09-05
網頁
用正則提取域名網址
2022-03-08
提取動態html網頁內容
2018-09-06
HTML網頁
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
C#簡單的web網頁html抓取並提取指定a標籤連結
2019-05-11
C#Web網頁HTML
Swift抓取某網站律師內容並做排名篩選
2024-01-19
Swift網站
ASP使用正則提取內容裡所有圖片路徑SRC的實現程式碼
2019-11-02
怎麼更改網頁上的內容並儲存
2024-10-07
網頁
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
Python爬蟲十六式 - 第四式: 使用Xpath提取網頁內容
2019-01-10
Python爬蟲網頁
三國演義內容抓取（詩詞名句網）
2024-08-07
核對不同資料夾所含內容的差異並提取缺失內容：Python程式碼
2024-07-03
Python
網站主網頁修改，如何更新網站主頁內容
2024-12-06
網站網頁
修改網頁內容的方法
2024-10-07
網頁
Python提取文字指定內容
2024-03-26
Python
用python3教你任意Html主內容提取
2018-11-05
PythonHTML
Jmeter系列（27）- 詳解正則提取器
2020-06-23
JMeter
PHP 正則提取字串中的美元
2019-06-21
PHP字串
透過Requests模組獲取網頁內容並使用BeautifulSoup進行解析
2024-03-26
網頁
Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
如何使用ScrapySharp下載網頁內容
2023-12-25
網頁
正則提取十六進位制顏色值
2020-04-13
python 網頁文字提取
2018-07-25
Python網頁
文章內容提取庫 goose 簡介
2018-10-13
Go
WordPress快速增加百度收錄,加快網站內容抓取
2019-04-02
網站
NodeJS使用PhantomJs抓取網頁
2019-02-16
NodeJS網頁
騰牛網抓取（單頁）
2024-08-07
如何抓取網頁資訊？
2022-06-02
網頁
excel怎麼篩選重複的內容 excel找出重複項並提取
2022-02-26
Excel
Python-網頁轉義字元及正則全文匹配
2018-07-13
Python網頁字元
網頁資料抓取之噹噹網
2020-12-21
網頁
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
如何用Python批量提取PDF文字內容？
2018-06-27
Python
如何使用htmlq提取html檔案內容
2022-12-08
HTML
批量抓取網頁pdf檔案
2019-02-16
網頁
使用chromedriver抓取網頁截圖
2024-11-07
Chrome網頁
使用代理抓取網頁的原因
2021-09-11
網頁

CURL抓取網頁內容並用正則提取。

相關文章