用PYTHON爬蟲簡單爬取網路小說
用PYTHON爬蟲簡單爬取網路小說。
這裡是17K小說網上,隨便找了一本小說,名字是《千萬大獎》。
裡面主要是三個函式:
1、get_download_url() 用於獲取該小說的所有章節的URL。
分析了該小說的目錄頁的HTML原始碼,發現其目錄是包含在Volume裡的A標籤合集。所以就提取出了URLS列表。
2、get_contents(target) 用於獲取小說指定章節的正文內容
分析了小說中第一章節的頁面,發現其正文內容包含在P標籤中,正文標題包含在H1標籤中,經過對換行等處理,得到正文內容。傳入引數是上一函式得到的URL。
3、writer(name, path, text) 用於將得到的正文內容和章節標題寫入到千萬大獎.txt
理論上,該簡單爬蟲可以爬取該網站的任意小說。
from bs4 import BeautifulSoup import requests, sys ''' 遇到不懂的問題?Python學習交流群:821460695滿足你的需求,資料都已經上傳群檔案,可以自行下載! ''' target='' server='' urls=[] def get_download_url(): req = requests.get(url = target) html = req.text div_bf = BeautifulSoup(html,'lxml') div = div_bf.find_all('dl', class_ = 'Volume') a_bf = BeautifulSoup(str(div[0]),'lxml') a = a_bf.find_all('a') for each in a[1:]: urls.append(server + each.get('href')) def get_contents(target): req = requests.get(url = target) html = req.text bf = BeautifulSoup(html,'lxml') title=bf.find_all('div', class_ = 'readAreaBox content') title_bf = BeautifulSoup(str(title[0]),'lxml') title = title_bf.find_all('h1') title=str(title[0]).replace('<h1>','') title=str(title).replace('</h1>','') title=str(title).replace(' ','') title=str(title).replace('n','') texts = bf.find_all('div', class_ = 'p') texts=str(texts).replace('<br/>','n') texts=texts[:texts.index('本書首發來自17K小說網,第一時間看正版內容!')] texts=str(texts).replace(' ','') return title,str(texts[len('[<div class="p">'):]) def writer(name, path, text): write_flag = True with open(path, 'a', encoding='utf-8') as f: f.write(name + 'n') f.writelines(text) f.write('n') #title,content=get_contents(target) #print(title,content) #writer(title,title+".txt",content) get_download_url() #print(urls) i=1 for url in urls: title,content=get_contents(url) writer(title,"千萬大獎.txt",content) print(str(int(i/len(urls)*100))+"%") i+=1
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/1762/viewspace-2836587/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python 第一個爬蟲,爬取 147 小說Python爬蟲
- python網路爬蟲_Python爬蟲:30個小時搞定Python網路爬蟲視訊教程Python爬蟲
- python網路爬蟲應用_python網路爬蟲應用實戰Python爬蟲
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- python例項,python網路爬蟲爬取大學排名!Python爬蟲
- python簡單爬蟲(二)Python爬蟲
- python 爬蟲 mc 皮膚站 little skin 的簡單爬取Python爬蟲
- Python使用多程式提高網路爬蟲的爬取速度Python爬蟲
- 教你用Python爬取圖蟲網Python
- Python超簡單超基礎的免費小說爬蟲!爬蟲入門從這開始!Python爬蟲
- 《從零開始學習Python爬蟲:頂點小說全網爬取實戰》Python爬蟲
- 誰說爬蟲只能Python?看我用C#快速簡單實現爬蟲開發和演示!爬蟲PythonC#
- 如何用Python網路爬蟲爬取網易雲音樂歌曲Python爬蟲
- 用Python網路爬蟲獲取Mikan動漫資源Python爬蟲
- python網路爬蟲(7)爬取靜態資料詳解Python爬蟲
- 什麼是網路爬蟲?為什麼用Python寫爬蟲?爬蟲Python
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 【Python爬蟲】正則爬取趕集網Python爬蟲
- python DHT網路爬蟲Python爬蟲
- 簡單瞭解python爬蟲Python爬蟲
- Python網路爬蟲實戰小專案Python爬蟲
- 初探python之做一個簡單小爬蟲Python爬蟲
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- Python爬蟲之小說資訊爬取與資料視覺化分析Python爬蟲視覺化
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 爬蟲爬取微信小程式爬蟲微信小程式
- python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用Python爬蟲
- 如何用python爬蟲下載小說?Python爬蟲
- Python3 | 簡單爬蟲分析網頁元素Python爬蟲網頁
- python網路爬蟲(9)構建基礎爬蟲思路Python爬蟲
- 網路爬蟲(python專案)爬蟲Python
- 專案--python網路爬蟲Python爬蟲
- python網路爬蟲合法嗎Python爬蟲
- Python網路爬蟲實戰Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- [Python] 網路爬蟲與資訊提取(1) 網路爬蟲之規則Python爬蟲