如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
今天樂視的股價可以說是從水深火熱到激情澎湃,振幅高達 19.5%,不知大家都賺到了嗎?
不管賺沒賺到,買股票前收集資料進行調研還是必須的。
上市公司資訊釋出哪裡權威呢,自然是巨潮資訊,畢竟是中國證監會指定資訊披露網站。
如何抓取其中樂視相關 pdf 檔案呢,從網站上一個個下載多累,還未必能找全,我教你個辦法,自動化抓取,一勞永逸。下面開始演示。
一、搜尋
這裡以從巨潮資訊網 全站樂視 相關 pdf 為例,巨潮網址:
http://www.cninfo.com.cn
注意裡面用了 site 和 filetype 兩個操作符,這兩個啥用途呢?
site 用於列出某域名下所有網頁(包含檔案)
filetype 用於篩選檔案型別
二者結合就起到列出網站下所有搜尋詞相關 pdf 檔案的目的。
二、抓取
現在連結有了,如何抓取呢,這裡就該 Web Scraper 出場了。
1、建立 Sitemap。
2、按如下結構建立選擇器。
3、抓取並匯出 Excel 如下。
三、下載
連結有了,如何下載呢,迅雷上唄。
下載任務圓滿完成:
四、思考
1、樂視抓完了,格力呢?巨潮會抓了,別的網站呢?
2、如果把搜尋詞樂視去掉又會如何?這裡面有什麼花頭可挖?
3、filetype 後面換個別的檔案型別呢,比如 ppt,doc,xls?
4、百度高階搜尋 介面如下,你還能想出什麼玩法?
相關文章
- 批量抓取網頁pdf檔案網頁
- 網頁中Office和pdf相關檔案匯出網頁
- 如何用 Downie 自定義模式抓取視訊模式
- web scraperWeb
- 利用VS(Visual Studio)自帶的工具檢視DLL檔案相關資訊
- 基於Chrome的Easy Scraper外掛抓取網頁Chrome網頁
- Web Scraper教程Web
- Linux檔案內容檢視相關命令Linux
- Web Scraper工作原理Web
- 分享下 PHP 使用 getID3 來獲取音訊、視訊等媒體檔案相關資訊PHP音訊
- 如何用Python爬資料?(一)網頁抓取Python網頁
- Linux檢視相關係統資訊Linux
- Web Scraper如何翻頁Web
- 如何抓取網頁資訊?網頁
- 如何用Python從PDF檔案中提取文字詞彙Python
- 檢視織夢CMS原始碼中的資料庫相關檔案原始碼資料庫
- css檔案與資源路徑相關CSS
- web頁面引用相關檔案或者頁面方式彙總Web
- Web Scraper簡單配置方法Web
- opencv 視訊處理相關OpenCV
- Linux根據程式號,檢視相關資訊Linux
- 通過web url獲取檔案資訊Web
- spring boot配置檔案相關Spring Boot
- Linux檔案管理相關命令Linux
- 實驗七 檔案相關
- 檢視BAM檔案頭部資訊
- Audio Kit 檢視檔案波形的相關原始碼,easy o原始碼
- 檢視錶和索引碎片情況相關資訊索引
- 利用html5 file api讀取本地檔案(如圖片、PDF等)HTMLAPI
- 樂樂檔案
- linux使用者相關檔案Linux
- Ubuntu檔案相關命令集合Ubuntu
- 音樂相關apiAPI
- linux檔案相關命令 透過檔案獲取父資料夾名稱Linux
- 分享下 PHP 使用 getID3 來獲取音訊、影片等媒體檔案相關資訊PHP音訊
- linux系統配置及相關檔案Linux
- Linux檔案相關命令詳解(一)Linux
- 音視訊學習 -- 弱網對抗技術相關實踐