簡單的爬蟲:爬取網站內容正文與圖片
我們來寫個簡單的爬蟲####
需要用到的模組
需要用到python的urllib和lxml模組,urllib為python的自帶模組,lxml需要自行安裝:
pip install lxml
簡單介紹urllib和lxml的使用
我們使用urllib來爬去一個網頁比如:
In [1]: import urllib In [2]: # 爬起豆瓣首頁In [3]: html = urllib.urlopen("").read() In [4]: # 整個html列印出來太多,這裡我們就儲存在檔案中,再檢視In [5]: of = open("db_index.html","w") In [6]: of.write(html) In [7]: of.close()
使用lxml主要用於解析網頁(這裡只是簡單示範),比如:
In [8]: from lxml import etree In [9]: html = u'我是標題
哈哈哈哈
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/3244/viewspace-2809922/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 使用正則編寫簡單的爬蟲爬取某網站的圖片爬蟲網站
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- node:爬蟲爬取網頁圖片爬蟲網頁
- Java爬蟲批量爬取圖片Java爬蟲
- PHP 爬蟲爬取社群文章內容PHP爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- java 爬取網頁內容。 標題、圖片等Java網頁
- 爬蟲---xpath解析(爬取美女圖片)爬蟲
- scrapy定製爬蟲-爬取javascript內容爬蟲JavaScript
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- 用PYTHON爬蟲簡單爬取網路小說Python爬蟲
- python 爬蟲 mc 皮膚站 little skin 的簡單爬取Python爬蟲
- 蘇寧易購網址爬蟲爬取商品資訊及圖片爬蟲
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- Python爬蟲爬取美劇網站Python爬蟲網站
- go語言實現簡單爬蟲獲取頁面圖片Go爬蟲
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- JB的Python之旅-爬蟲篇-新浪微博內容爬取Python爬蟲
- ScienceDirect內容爬蟲爬蟲
- 爬蟲:HTTP請求與HTML解析(爬取某乎網站)爬蟲HTTPHTML網站
- Python爬蟲學習(5): 簡單的爬取Python爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- Python爬蟲學習(6): 爬取MM圖片Python爬蟲
- Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰:爬取 169美女圖片網 高清圖片Python爬蟲網站
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- Python爬蟲入門【4】:美空網未登入圖片爬取Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- Python爬蟲新手教程: 知乎文章圖片爬取器Python爬蟲
- Python爬蟲實戰詳解:爬取圖片之家Python爬蟲
- Python爬蟲入門-爬取pexels高清圖片Python爬蟲
- 小小圖片爬蟲爬蟲
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- 基於RxJava2實現的簡單圖片爬蟲RxJava爬蟲
- ReactPHP 爬蟲實戰:下載整個網站的圖片ReactPHP爬蟲網站
- Python爬蟲遞迴呼叫爬取動漫美女圖片Python爬蟲遞迴