python爬蟲,獲取中國工程院院士資訊
import re
import os
import os.path
import time
from urllib.request import urlopen
dstDir = 'YuanShi'
if not os.path.isdir(dstDir):
os.mkdir(dstDir)
startUrl = r'http://www.cae.cn/cae/html/main/col48/column_48_1.html'
with urlopen(startUrl) as fp:
content = fp.read().decode()
# 提取並遍歷每位大牛連結
pattern = r'<li class="name_list"><a href="(.+)" target="_blank">(.+)</a></li>'
result = re.findall(pattern, content)
for item in result:
perUrl, name = item
# 測試是否獲取資訊
print(perUrl)
# 這裡根據初爬結果進行改進
name = name.replace('<h3>', '').replace('</h3>', '')
name = os.path.join(dstDir, name)
perUrl = r'http://www.cae.cn/' + perUrl
with urlopen(perUrl) as fp:
content = fp.read().decode()
# 抓取簡介
pattern = r'<p>(.+?)</p>'
result = re.findall(pattern, content) # 返回string中所有與pattern匹配的全部字串,返回形式為陣列。
if result:
intro = re.sub('(<a.+</a>)|( )|( );','','\n'.join(result))
with open(name+'.txt', 'w', encoding='utf8') as fp:
fp.write(intro)
相關文章
- Python 爬蟲獲取網易雲音樂歌手資訊Python爬蟲
- python爬蟲——爬取大學排名資訊Python爬蟲
- 利用Python爬蟲獲取招聘網站職位資訊Python爬蟲網站
- python爬蟲--爬取鏈家租房資訊Python爬蟲
- Python爬蟲爬取淘寶,京東商品資訊Python爬蟲
- 小白學 Python 爬蟲(25):爬取股票資訊Python爬蟲
- python爬蟲如何獲取表情包Python爬蟲
- Python爬蟲實戰:爬取淘寶的商品資訊Python爬蟲
- 爬蟲例項-淘寶頁面商品資訊獲取爬蟲
- Java爬蟲-爬取疫苗批次資訊Java爬蟲
- python爬蟲獲取百度熱搜Python爬蟲
- python爬蟲58同城(多個資訊一次爬取)Python爬蟲
- python爬蟲--招聘資訊Python爬蟲
- python爬蟲從ip池獲取隨機IPPython爬蟲隨機
- python 爬蟲之獲取標題和連結Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 中國工程院院士高文:人工智慧的“3144”人工智慧
- 爬蟲實踐之獲取網易雲評論資料資訊爬蟲
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- python 爬蟲 5i5j房屋資訊 獲取並儲存到資料庫Python爬蟲資料庫
- Python爬蟲抓取股票資訊Python爬蟲
- [python爬蟲] 招聘資訊定時系統 (一).BeautifulSoup爬取資訊並儲存MySQLPython爬蟲MySql
- Python爬蟲之小說資訊爬取與資料視覺化分析Python爬蟲視覺化
- [python爬蟲] BeautifulSoup和Selenium簡單爬取知網資訊測試Python爬蟲
- Python爬蟲學習筆記(1)爬取知乎使用者資訊Python爬蟲筆記
- python 爬蟲 爬取 learnku 精華文章Python爬蟲
- Python爬蟲精簡步驟1 獲取資料Python爬蟲
- Python 爬蟲獲取網易雲音樂歌手歌詞Python爬蟲
- python爬蟲獲取天氣網實時資料Python爬蟲
- 中國工程院院士:物聯網市場須走出碎片化
- python爬蟲小專案--飛常準航班資訊爬取variflight(上)Python爬蟲
- [python爬蟲] Selenium爬取新浪微博內容及使用者資訊Python爬蟲
- Python爬蟲爬取美劇網站Python爬蟲網站
- python爬蟲爬取糗事百科Python爬蟲
- python爬蟲抓取哈爾濱天氣資訊(靜態爬蟲)Python爬蟲
- 分散式爬蟲之知乎使用者資訊爬取分散式爬蟲
- 爬蟲實戰(一):爬取微博使用者資訊爬蟲
- 爬蟲01:爬取豆瓣電影TOP 250基本資訊爬蟲