python爬蟲,獲取中國工程院院士資訊
import re
import os
import os.path
import time
from urllib.request import urlopen
dstDir = 'YuanShi'
if not os.path.isdir(dstDir):
os.mkdir(dstDir)
startUrl = r'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
with urlopen(startUrl) as fp:
content = fp.read().decode()
# 提取並遍歷每位大牛連結
pattern = r'<li class="name_list"><a href="(.+)" target="_blank">(.+)</a></li>'
result = re.findall(pattern, content)
for item in result:
perUrl, name = item
# 測試是否獲取資訊
print(perUrl)
# 這裡根據初爬結果進行改進
name = name.replace('<h3>', '').replace('</h3>', '')
name = os.path.join(dstDir, name)
perUrl = r'http://www.cae.cn/' + perUrl
with urlopen(perUrl) as fp:
content = fp.read().decode()
# 抓取簡介
pattern = r'<p>(.+?)</p>'
result = re.findall(pattern, content) # 返回string中所有與pattern匹配的全部字串,返回形式為陣列。
if result:
intro = re.sub('(<a.+</a>)|( )|( );','','\n'.join(result))
with open(name+'.txt', 'w', encoding='utf8') as fp:
fp.write(intro)
相關文章
- Python 爬蟲獲取網易雲音樂歌手資訊Python爬蟲
- 利用Python爬蟲獲取招聘網站職位資訊Python爬蟲網站
- python爬蟲——爬取大學排名資訊Python爬蟲
- python爬蟲--爬取鏈家租房資訊Python爬蟲
- 小白學 Python 爬蟲(25):爬取股票資訊Python爬蟲
- python爬蟲如何獲取表情包Python爬蟲
- Python爬蟲爬取淘寶,京東商品資訊Python爬蟲
- Python爬蟲精簡步驟1 獲取資料Python爬蟲
- python爬蟲獲取天氣網實時資料Python爬蟲
- Python爬蟲實戰:爬取淘寶的商品資訊Python爬蟲
- Java爬蟲-爬取疫苗批次資訊Java爬蟲
- python爬蟲58同城(多個資訊一次爬取)Python爬蟲
- Python爬蟲訓練:爬取酷燃網視訊資料Python爬蟲
- python爬蟲--招聘資訊Python爬蟲
- 用Python網路爬蟲獲取Mikan動漫資源Python爬蟲
- 爬蟲例項-淘寶頁面商品資訊獲取爬蟲
- python爬蟲獲取百度熱搜Python爬蟲
- Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作Python爬蟲
- python 爬蟲 5i5j房屋資訊 獲取並儲存到資料庫Python爬蟲資料庫
- python爬蟲從ip池獲取隨機IPPython爬蟲隨機
- python 爬蟲之獲取標題和連結Python爬蟲
- Python爬蟲抓取股票資訊Python爬蟲
- Python爬蟲之小說資訊爬取與資料視覺化分析Python爬蟲視覺化
- 中國工程院院士高文:人工智慧的“3144”人工智慧
- python爬蟲小專案--飛常準航班資訊爬取variflight(上)Python爬蟲
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- 爬蟲實踐之獲取網易雲評論資料資訊爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- 【大資料】中國工程院院士何友:工業大資料及其應用大資料
- 實時獲取股票資料,免費!——Python爬蟲Sina Stock實戰Python爬蟲
- Golang 爬蟲快速入門 | 獲取 B 站全站的視訊資料Golang爬蟲
- Python爬蟲實戰案例-爬取幣世界標紅快訊Python爬蟲
- python爬蟲練習--爬取虎牙主播原畫視訊Python爬蟲
- python爬取北京租房資訊Python
- Python 爬蟲獲取網易雲音樂歌手歌詞Python爬蟲
- 【Python爬蟲實戰】使用Selenium爬取QQ音樂歌曲及評論資訊Python爬蟲
- 中國工程院院士:物聯網市場須走出碎片化