PHP 爬蟲爬取社群文章內容

DenverB發表於2017-09-30

原文網址 : https://learnku.com/articles/6272/php-crawler-crawls-community-article-content?order_by=created_at&

PHP爬蟲

php也可以寫爬蟲

說起爬蟲，大多數第一反應都是python，python強大的requests和bs4等等強大的第三方庫讓人們都喜歡用python去寫爬蟲。但是php作為“世界上最好的語言”當然也可以用來開發爬蟲。
寫了一個小的爬蟲爬取社群的文章原始碼地址

前期準備

composer
Guzzle Guzzle是一個十分強大的php的模擬HTTP client的第三方庫，可以通過composer安裝
Goutte Goutte是一個用來解析HTML文件的第三方庫，可以通過composer安裝

開始工作

1.安裝兩個庫

Goutte composer require fabpot/goutte
Guzzle composer require guzzlehttp/guzzle:~6.0

2.建立命令

php artisan make:command Spider

3.命令引數

protected $signature = 'command:spider {concurrency} {keyWords*}'; //concurrency為併發數 keyWords為查詢關鍵詞

4.編寫爬蟲

寫了一個簡單的，主要用來爬取社群的文章，通過命令列引數獲取要搜尋的關鍵詞，然後爬取文章，並爬下內容存在本地。直接貼程式碼啦。

<?php

namespace App\Console\Commands;

use Goutte\Client as GoutteClient;
use GuzzleHttp\Client as GuzzleClient;
use GuzzleHttp\Pool;
use Illuminate\Console\Command;
use Illuminate\Support\Facades\Storage;

class Spider extends Command
{

    protected $signature = 'command:spider {concurrency} {keyWords*}'; //concurrency為併發數  keyWords為查詢關鍵詞

    protected $description = 'php spider';

    public function __construct()
    {
        parent::__construct();
    }

    public function handle()
    {
        //
        $concurrency = $this->argument('concurrency');  //併發數
        $keyWords = $this->argument('keyWords');    //查詢關鍵詞
        $guzzleClent = new GuzzleClient();
        $client = new GoutteClient();
        $client->setClient($guzzleClent);
        $request = function ($total) use ($client,$keyWords){
            foreach ($keyWords as $key){
                $url='https://laravel-china.org/search?q='.$key;
                yield function () use($client,$url){
                    return $client->request('GET',$url);
                };
            }
        };
        $pool = new Pool($guzzleClent,$request(count($keyWords)),[
            'concurrency' => $concurrency,
            'fulfilled' => function ($response, $index) use ($client){
                $response->filter('h2 > a')->reduce(function($node) use ($client){
                    if(strlen($node->attr('title'))==0) {
                        $title = $node->text();             //文章標題
                        $link = $node->attr('href');        //文章連結
                        $carwler = $client->request('GET',$link);       //進入文章
                        $content=$carwler->filter('#emojify')->first()->text();     //獲取內容
                        Storage::disk('local')->put($title,$content);           //儲存在本地
                    }
                });
            },
            'rejected' => function ($reason, $index){
                $this->error("Error is ".$reason);
            }
        ]);
        //開始爬取
        $promise = $pool->promise();
        $promise->wait();
    }
}

本作品採用《CC 協議》，轉載必須註明作者和本文連結

Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示
2020-09-14
Python爬蟲網頁
python 爬蟲爬取 learnku 精華文章
2020-04-17
Python爬蟲
ScienceDirect內容爬蟲
2021-07-21
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
JB的Python之旅-爬蟲篇-新浪微博內容爬取
2018-06-30
Python爬蟲
Python爬蟲爬取B站up主所有動態內容
2024-05-08
Python爬蟲
python 爬蟲如何爬取動態生成的網頁內容
2024-10-31
Python爬蟲網頁
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
爬蟲之股票定向爬取
2018-12-06
爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
爬蟲爬取微信小程式
2019-02-16
爬蟲微信小程式
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
如何合理控制爬蟲爬取速度？
2022-06-02
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬取網頁文章
2021-09-29
網頁
富貴教你用PHP爬取掘金文章
2018-12-02
PHP
Python 爬蟲網頁內容提取工具xpath(二)
2018-12-08
Python爬蟲網頁
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Java爬蟲-爬取疫苗批次資訊
2024-06-03
Java爬蟲
提高爬蟲爬取效率的辦法
2022-04-06
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
PHP爬蟲初探......先爬Learnku試試看
2020-07-23
PHP爬蟲
爬取Elastic Stack採集的Nginx內容
2023-11-07
ASTNginx
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中（2）
2018-12-27
爬蟲PythonExcel
爬取部落格園文章
2020-07-31
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
爬蟲練習——爬取縱橫中文網
2020-10-19
爬蟲
python爬蟲--爬取鏈家租房資訊
2020-05-16
Python爬蟲
python 爬蟲 1 爬取酷狗音樂
2020-03-29
Python爬蟲
擼個爬蟲，爬取電影種子
2019-05-11
爬蟲
如何提高爬取爬蟲採集的效率？
2022-06-11
爬蟲

PHP 爬蟲爬取社群文章內容

php也可以寫爬蟲

前期準備

開始工作

1.安裝兩個庫

2.建立命令

3.命令引數

4.編寫爬蟲

相關文章