如何用Web Scraper抓取巨潮資訊網全站樂視相關pdf檔案
今天樂視的股價可以說是從水深火熱到激情澎湃,振幅高達 19.5%,不知大家都賺到了嗎?
不管賺沒賺到,買股票前收集資料進行調研還是必須的。
上市公司資訊釋出哪裡權威呢,自然是巨潮資訊,畢竟是中國證監會指定資訊披露網站。
如何抓取其中樂視相關 pdf 檔案呢,從網站上一個個下載多累,還未必能找全,我教你個辦法,自動化抓取,一勞永逸。下面開始演示。
一、搜尋
這裡以從巨潮資訊網 全站樂視 相關 pdf 為例,巨潮網址:
http://www.cninfo.com.cn
注意裡面用了 site 和 filetype 兩個操作符,這兩個啥用途呢?
site 用於列出某域名下所有網頁(包含檔案)
filetype 用於篩選檔案型別
二者結合就起到列出網站下所有搜尋詞相關 pdf 檔案的目的。
二、抓取
現在連結有了,如何抓取呢,這裡就該 Web Scraper 出場了。
1、建立 Sitemap。
2、按如下結構建立選擇器。
3、抓取並匯出 Excel 如下。
三、下載
連結有了,如何下載呢,迅雷上唄。
下載任務圓滿完成:
四、思考
1、樂視抓完了,格力呢?巨潮會抓了,別的網站呢?
2、如果把搜尋詞樂視去掉又會如何?這裡面有什麼花頭可挖?
3、filetype 後面換個別的檔案型別呢,比如 ppt,doc,xls?
4、百度高階搜尋 介面如下,你還能想出什麼玩法?
相關文章
- 批量抓取網頁pdf檔案網頁
- 線上檔案格式(PDF相關)轉換網站網站
- 網頁中Office和pdf相關檔案匯出網頁
- web scraperWeb
- 基於Chrome的Easy Scraper外掛抓取網頁Chrome網頁
- Web Scraper教程Web
- 如何用 Python 實現 Web 抓取?PythonWeb
- Web Scraper工作原理Web
- 關於PDF檔案解密解密
- linux網路相關配置檔案Linux
- Web Scraper如何翻頁Web
- 如何用Python從PDF檔案中提取文字詞彙Python
- Web Scraper簡單配置方法Web
- 如何抓取網頁資訊?網頁
- 檔案下載相關
- 重建控制檔案時,與資料檔案相關的Checkpoint資訊來自何處
- web頁面引用相關檔案或者頁面方式彙總Web
- 獲取網路卡的相關資訊
- 利用html5 file api讀取本地檔案(如圖片、PDF等)HTMLAPI
- Redhat 網路相關配置檔案詳解 - (轉自網路)Redhat
- 實驗七 檔案相關
- 與 RMAN 相關的檔案
- 在Web應用中動態建立PDF檔案Web
- 如何用程式下載網上檔案
- 檢查REDO日誌相關資訊並生成HTML檔案的指令碼HTML指令碼
- Linux檔案管理相關命令Linux
- spring boot配置檔案相關Spring Boot
- Ubuntu檔案相關命令集合Ubuntu
- c語言檔案操作相關C語言
- 通過web url獲取檔案資訊Web
- 如何用Python爬資料?(一)網頁抓取Python網頁
- Web方式預覽Office/Word/Excel/pdf檔案解決方案WebExcel
- 怎麼把pdf檔案縮小?如何使用PDF Expert壓縮pdf檔案大小?
- linux使用者相關檔案Linux
- Perl6 檔案相關內容
- proc檔案系統相關內容
- 重做日誌檔案的相關操作
- Oracle控制檔案相關的其他(五)Oracle