中科院爬蟲完整專案
2018/07/09 23:43
專案名稱:爬取中科院871個院士的簡介資訊
1.爬取目的:中科院871個院士的簡介資訊
2.爬取最終結果:
3.具體程式碼如下:
import re # 不用安裝(注意!!)
import os # 資料夾等的操作(注意!!)
import time
import requests # http urllib2
url = 'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
html = requests.get(url)
# print(html.status_code) # 狀態碼200 404 500 502
html.encoding = 'utf-8'
# print(html.text) # 以文字形式返回網頁
# 提取資料
# + 一次或多次 大於等於一次
# findall返回的是列表(注意!!)
number = re.findall(
'<a href="/cae/html/main/colys/(\d+).html" target="_blank">', html.text)
i = 1 # 這裡的i變數是由我創造進行明確區分所抓取的院士的數量的;
for m in number[:871]:
# for m in number[:4]: # 這裡控制要爬取的個數
# for m in number[28:88]:
nextUrl = 'http://www.cae.cn/cae/html/main/colys/{}.html'.format(m)
# 再次請求資料
nexthtml = requests.get(nextUrl)
nexthtml.encoding = 'utf-8'
# 注意正規表示式:
# () 提取資料
# . 匹配除了換行\n的任意單個字元
# * 匹配前面的表示式任意次 {1,5}
# ? 如果前面有限定符 非貪婪模式,注意!!!
# 儘量可能少的匹配所搜尋的字串
text = re.findall('<div class="intro">(.*?)</div>', nexthtml.text, re.S) # re.S匹配換行的
text2 = re.sub(r'<p>| | |</p>', '', text[0]).strip() # .strip()清楚空格
# 儲存資料
with open(r'E:\02中科院院士資訊爬取結果.txt', mode='a+', encoding="utf-8") as f: # 特別注意這裡的要以編碼utf-8方式開啟
f.write('{}. '.format(i) + text2 + '\n')
i += 1
# 不要下載太快
# 限制下載的速度
time.sleep(1)
# 程式執行到這個地方 暫停1s
相關文章
- 爬蟲專案爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 爬蟲小專案爬蟲
- 爬蟲專案部署爬蟲
- 建立爬蟲專案爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲
- 奇伢爬蟲專案爬蟲
- 爬蟲專案總結爬蟲
- 網路爬蟲專案爬蟲
- scrapyd 部署爬蟲專案爬蟲
- Scrapy建立爬蟲專案爬蟲
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- 完整的python專案例項-《Python爬蟲開發與專案實戰》pdf完整版Python爬蟲
- 爬蟲專案實戰(一)爬蟲
- 爬蟲實戰專案集合爬蟲
- 爬蟲的例項專案爬蟲
- 爬蟲實戰專案合集爬蟲
- gerapy框架爬蟲專案部署框架爬蟲
- 爬蟲小專案(一)淘寶爬蟲
- Python爬蟲專案整理Python爬蟲
- 網路爬蟲專案蒐集爬蟲
- 11.4. 爬蟲專案爬蟲
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 爬蟲——實戰完整版爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- 專案--python網路爬蟲Python爬蟲
- 爬蟲專案:大麥網分析爬蟲
- 100爬蟲專案遷移爬蟲
- Java爬蟲專案環境搭建Java爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 企業資料爬蟲專案爬蟲
- 爬蟲開源專案及其思想爬蟲
- 33個Python爬蟲專案Python爬蟲
- VSCrawler爬蟲專案介紹爬蟲
- Python簡單爬蟲專案Python爬蟲