如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案

huangbangqing12發表於2019-01-12

今天樂視的股價可以說是從水深火熱到激情澎湃,振幅高達 19.5%,不知大家都賺到了嗎?

不管賺沒賺到,買股票前收集資料進行調研還是必須的。

上市公司資訊釋出哪裡權威呢,自然是巨潮資訊,畢竟是中國證監會指定資訊披露網站。

如何抓取其中樂視相關 pdf 檔案呢,從網站上一個個下載多累,還未必能找全,我教你個辦法,自動化抓取,一勞永逸。下面開始演示。

 

一、搜尋

這裡以從巨潮資訊網 全站樂視 相關 pdf 為例,巨潮網址:

http://www.cninfo.com.cn

注意裡面用了 site 和 filetype 兩個操作符,這兩個啥用途呢?

site 用於列出某域名下所有網頁(包含檔案)

filetype 用於篩選檔案型別

二者結合就起到列出網站下所有搜尋詞相關 pdf 檔案的目的。

 

二、抓取

現在連結有了,如何抓取呢,這裡就該 Web Scraper 出場了。

1、建立 Sitemap

2、按如下結構建立選擇器

3、抓取並匯出 Excel 如下。

 

三、下載

連結有了,如何下載呢,迅雷上唄。

下載任務圓滿完成:

 

四、思考

1、樂視抓完了,格力呢?巨潮會抓了,別的網站呢?

2、如果把搜尋詞樂視去掉又會如何?這裡面有什麼花頭可挖?

3、filetype 後面換個別的檔案型別呢,比如 ppt,doc,xls?

4、百度高階搜尋 介面如下,你還能想出什麼玩法?

 

相關文章