爬蟲作業一
from bs4 import BeautifulSoup
import requests
import time
import random
import re
if __name__ =='__main__':
url = '‘#自己填寫,版權問題不能寫
A = requests.get(url=url)
A.encoding='utf-8'
page_text =A.text
soup = BeautifulSoup(page_text, 'lxml')
dd_list = soup.find('div',id='list')
a_list = dd_list.find_all('a')
del a_list[0:12]
print(a_list)
fp=open('./南明第一狠人.txt', 'w', encoding='utf-8')
path = r'C:\爬蟲實驗\ '
for a in a_list:
time.sleep(4.5)#固定間隔時長,括號內數值可以自定議,下一行同可自定義。不過間隔時長短會導致訪問頻繁被網站 KO
time.sleep(random.random()*3.24)#隨機間隔時長 程式碼基本完善,不過存在方法不夠完美
title_1 = a.string
title = re.sub(u'\\(.*?\\)','',title_1) #去除了作者求月票的行為!!!!但是作者內藏吐槽章節未去除
print(title)#列印章節的名字
detail_url='http://ajnnan.com'+a['href']
print(detail_url)#列印章節的url
detail = requests.get(url=detail_url,).text #, headers=headers
detail = detail.encode("ISO-8859-1")
detail = detail.decode("utf-8")
detail_s = BeautifulSoup(detail, 'lxml')
div_t = detail_s.find('div',attrs={'id':'content'})
c = div_t.text
fp.write(title + ':' + c + '\n')
#print(c)
with open(path + title + '.txt', 'w', encoding='utf-8') as f:
f.write(title + ':' + c + '\n')
print('返回'+title,'爬取成功!')
稽核問題,之前的不能檢視
相關文章
- 二期Python爬蟲作業No.1一簡書Python爬蟲
- Python爬蟲群作業-Week3-BeautifulSoupPython爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 網路爬蟲如何運作?爬蟲
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 爬蟲專案(一)爬蟲+jsoup輕鬆爬知乎爬蟲JS
- 爬蟲作業03-爬取解密大資料專欄下的所有文章爬蟲解密大資料
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- 爬蟲筆記(一)爬蟲筆記
- 爬蟲:多程式爬蟲爬蟲
- 通用爬蟲與聚焦爬蟲爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- java 爬蟲大型教程(一)Java爬蟲
- python爬蟲初探--第一個python爬蟲專案Python爬蟲
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- Python爬蟲:一些常用的爬蟲技巧總結Python爬蟲
- Django用來作為爬蟲框架淺談Django爬蟲框架
- 使用爬蟲爬取超星學習通的作業時間並且通過郵件提醒!爬蟲
- 企業資料爬蟲專案爬蟲
- 反爬蟲之字型反爬蟲爬蟲
- 爬蟲進階:反反爬蟲技巧爬蟲
- 爬蟲學習日記(六)完成第一個爬蟲任務爬蟲
- [爬蟲架構] 如何設計一個分散式爬蟲架構爬蟲架構分散式
- 爬蟲爬蟲
- python爬蟲利用requests製作代理池sPython爬蟲
- 爬蟲專案實戰(一)爬蟲
- 每天一個爬蟲-learnku爬蟲
- 爬蟲學習日記(一)爬蟲
- 爬蟲小專案(一)淘寶爬蟲
- 【爬蟲】爬蟲專案推薦 / 思路爬蟲
- 【python爬蟲】python爬蟲demoPython爬蟲
- 爬蟲那些事-爬蟲設計思路爬蟲
- 新一代爬蟲平臺!不寫程式碼即可完成爬蟲...爬蟲
- Python爬蟲 - 記一次字型反爬Python爬蟲
- 一個很垃圾的整站爬取--Java爬蟲Java爬蟲
- 爬蟲與反爬:一場無休止之戰爬蟲
- 企業資料爬蟲專案(二)爬蟲