如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

huangbangqing12發表於2019-01-12

原文網址 : https://blog.csdn.net/biggbang/article/details/86347365

Web

今天樂視的股價可以說是從水深火熱到激情澎湃，振幅高達 19.5%，不知大家都賺到了嗎？

不管賺沒賺到，買股票前收集資料進行調研還是必須的。

上市公司資訊釋出哪裡權威呢，自然是巨潮資訊，畢竟是中國證監會指定資訊披露網站。

如何抓取其中樂視相關 pdf 檔案呢，從網站上一個個下載多累，還未必能找全，我教你個辦法，自動化抓取，一勞永逸。下面開始演示。

一、搜尋

這裡以從巨潮資訊網 全站樂視相關 pdf 為例，巨潮網址：

http://www.cninfo.com.cn

注意裡面用了 site 和 filetype 兩個操作符，這兩個啥用途呢？

site 用於列出某域名下所有網頁（包含檔案）

filetype 用於篩選檔案型別

二者結合就起到列出網站下所有搜尋詞相關 pdf 檔案的目的。

二、抓取

現在連結有了，如何抓取呢，這裡就該 Web Scraper 出場了。

1、建立 Sitemap。

2、按如下結構建立選擇器。

3、抓取並匯出 Excel 如下。

三、下載

連結有了，如何下載呢，迅雷上唄。

下載任務圓滿完成：

四、思考

1、樂視抓完了，格力呢？巨潮會抓了，別的網站呢？

2、如果把搜尋詞樂視去掉又會如何？這裡面有什麼花頭可挖？

3、filetype 後面換個別的檔案型別呢，比如 ppt，doc，xls？

4、百度高階搜尋 介面如下，你還能想出什麼玩法？

批量抓取網頁pdf檔案
2019-02-16
網頁
網頁中Office和pdf相關檔案匯出
2020-11-22
網頁
如何用 Downie 自定義模式抓取視訊
2021-11-09
模式
web scraper
2021-05-16
Web
利用VS(Visual Studio)自帶的工具檢視DLL檔案相關資訊
2024-04-25
基於Chrome的Easy Scraper外掛抓取網頁
2024-04-06
Chrome網頁
Web Scraper教程
2018-12-11
Web
Linux檔案內容檢視相關命令
2020-04-06
Linux
Web Scraper工作原理
2018-12-13
Web
分享下 PHP 使用 getID3 來獲取音訊、視訊等媒體檔案相關資訊
2020-02-27
PHP音訊
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
Linux檢視相關係統資訊
2022-08-03
Linux
Web Scraper如何翻頁
2018-12-14
Web
如何抓取網頁資訊？
2022-06-02
網頁
如何用Python從PDF檔案中提取文字詞彙
2018-12-18
Python
檢視織夢CMS原始碼中的資料庫相關檔案
2024-10-05
原始碼資料庫
css檔案與資源路徑相關
2021-01-05
CSS
web頁面引用相關檔案或者頁面方式彙總
2024-11-08
Web
Web Scraper簡單配置方法
2018-12-12
Web
opencv 視訊處理相關
2021-11-22
OpenCV
Linux根據程式號，檢視相關資訊
2018-05-23
Linux
通過web url獲取檔案資訊
2019-05-11
Web
spring boot配置檔案相關
2018-12-06
Spring Boot
Linux檔案管理相關命令
2020-02-19
Linux
實驗七檔案相關
2020-12-27
檢視BAM檔案頭部資訊
2024-03-29
Audio Kit 檢視檔案波形的相關原始碼，easy o
2020-12-29
原始碼
檢視錶和索引碎片情況相關資訊
2021-03-01
索引
利用html5 file api讀取本地檔案（如圖片、PDF等）
2019-03-01
HTMLAPI
樂樂檔案
2019-04-13
linux使用者相關檔案
2019-02-28
Linux
Ubuntu檔案相關命令集合
2018-09-24
Ubuntu
音樂相關api
2024-07-12
API
linux檔案相關命令透過檔案獲取父資料夾名稱
2024-03-29
Linux
分享下 PHP 使用 getID3 來獲取音訊、影片等媒體檔案相關資訊
2020-02-27
PHP音訊
linux系統配置及相關檔案
2024-10-02
Linux
Linux檔案相關命令詳解（一）
2020-11-24
Linux
抓取字串中的關鍵資訊神器---split()
2021-09-09
字串

如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

相關文章