中科院爬蟲完整專案

HGXLONLY發表於2018-07-10

原文網址 : https://blog.csdn.net/qq_36338623/article/details/80979277

爬蟲

2018/07/09 23:43

專案名稱：爬取中科院871個院士的簡介資訊

1.爬取目的：中科院871個院士的簡介資訊

2.爬取最終結果：

3.具體程式碼如下：

import re  # 不用安裝（注意！！）
import os  # 資料夾等的操作（注意！！）
import time  
import requests  # http  urllib2

url = 'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
html = requests.get(url)
# print(html.status_code) # 狀態碼200  404 500 502
html.encoding = 'utf-8'
# print(html.text) # 以文字形式返回網頁

# 提取資料
# + 一次或多次  大於等於一次
# findall返回的是列表（注意！！）
number = re.findall(
    '<a href="/cae/html/main/colys/(\d+).html" target="_blank">', html.text)

i = 1  # 這裡的i變數是由我創造進行明確區分所抓取的院士的數量的；
for m in number[:871]:
# for m in number[:4]:  # 這裡控制要爬取的個數
# for m in number[28:88]:
    nextUrl = 'http://www.cae.cn/cae/html/main/colys/{}.html'.format(m)
    # 再次請求資料
    nexthtml = requests.get(nextUrl)
    nexthtml.encoding = 'utf-8'
    # 注意正規表示式：
	# () 提取資料
    # . 匹配除了換行\n的任意單個字元
    # * 匹配前面的表示式任意次 {1,5}
    # ? 如果前面有限定符  非貪婪模式，注意！！！
    # 儘量可能少的匹配所搜尋的字串
    text = re.findall('<div class="intro">(.*?)</div>', nexthtml.text, re.S)  # re.S匹配換行的 
    text2 = re.sub(r'<p>| | |</p>', '', text[0]).strip()  # .strip()清楚空格

    # 儲存資料
    with open(r'E:\02中科院院士資訊爬取結果.txt', mode='a+', encoding="utf-8") as f:  # 特別注意這裡的要以編碼utf-8方式開啟
        f.write('{}. '.format(i) + text2 + '\n')
        i += 1

    # 不要下載太快
    # 限制下載的速度
    time.sleep(1)
    # 程式執行到這個地方  暫停1s

爬蟲專案
2019-06-07
爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
爬蟲小專案
2019-05-10
爬蟲
爬蟲專案部署
2018-04-03
爬蟲
完整的python專案例項-《Python爬蟲開發與專案實戰》pdf完整版
2020-10-28
Python爬蟲
奇伢爬蟲專案
2018-10-08
爬蟲
爬蟲專案總結
2020-08-31
爬蟲
scrapyd 部署爬蟲專案
2018-03-22
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
100爬蟲專案遷移
2018-09-19
爬蟲
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
爬蟲的例項專案
2019-04-26
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
企業資料爬蟲專案
2018-10-05
爬蟲
Java爬蟲專案環境搭建
2018-09-18
Java爬蟲
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
爬蟲專案:大麥網分析
2019-08-22
爬蟲
Python爬蟲開源專案合集
2020-06-04
Python爬蟲
github上的python爬蟲專案_GitHub - ahaharry/PythonCrawler: 用python編寫的爬蟲專案集合
2022-02-18
GithubPython爬蟲
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
爬蟲——實戰完整版
2018-09-25
爬蟲
資料分析專案（一）——爬蟲篇
2018-11-30
爬蟲
企業資料爬蟲專案（二）
2018-10-06
爬蟲
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
如何快速建立一個爬蟲專案
2020-11-20
爬蟲

中科院爬蟲完整專案

相關文章