簡單的爬蟲:爬取網站內容正文與圖片
我們來寫個簡單的爬蟲####
需要用到的模組
需要用到python的urllib和lxml模組,urllib為python的自帶模組,lxml需要自行安裝:
pip install lxml
簡單介紹urllib和lxml的使用
我們使用urllib來爬去一個網頁比如:
In [1]: import urllib In [2]: # 爬起豆瓣首頁In [3]: html = urllib.urlopen("").read() In [4]: # 整個html列印出來太多,這裡我們就儲存在檔案中,再檢視In [5]: of = open("db_index.html","w") In [6]: of.write(html) In [7]: of.close()
使用lxml主要用於解析網頁(這裡只是簡單示範),比如:
In [8]: from lxml import etree In [9]: html = u'我是標題
哈哈哈哈
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/3244/viewspace-2809922/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 使用正則編寫簡單的爬蟲爬取某網站的圖片爬蟲網站
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- node:爬蟲爬取網頁圖片爬蟲網頁
- Java爬蟲批量爬取圖片Java爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- Python爬蟲爬取B站up主所有動態內容Python爬蟲
- java 爬取網頁內容。 標題、圖片等Java網頁
- python 爬蟲如何爬取動態生成的網頁內容Python爬蟲網頁
- 爬蟲---xpath解析(爬取美女圖片)爬蟲
- python 爬蟲 mc 皮膚站 little skin 的簡單爬取Python爬蟲
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- 用PYTHON爬蟲簡單爬取網路小說Python爬蟲
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- go語言實現簡單爬蟲獲取頁面圖片Go爬蟲
- JB的Python之旅-爬蟲篇-新浪微博內容爬取Python爬蟲
- 爬蟲:HTTP請求與HTML解析(爬取某乎網站)爬蟲HTTPHTML網站
- Python爬蟲實戰詳解:爬取圖片之家Python爬蟲
- ScienceDirect內容爬蟲爬蟲
- Python爬蟲入門教程 2-100 妹子圖網站爬取Python爬蟲網站
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- 蘇寧易購網址爬蟲爬取商品資訊及圖片爬蟲
- Python爬蟲入門【4】:美空網未登入圖片爬取Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- Python爬蟲新手教程: 知乎文章圖片爬取器Python爬蟲
- Python爬蟲遞迴呼叫爬取動漫美女圖片Python爬蟲遞迴
- [譯] 如何使用 Python 和 BeautifulSoup 爬取網站內容Python網站
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- ReactPHP 爬蟲實戰:下載整個網站的圖片ReactPHP爬蟲網站
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- 利用Python爬取攝影網站圖片,切勿商用Python網站
- 爬取愛套圖網上的圖片
- Node JS爬蟲:爬取瀑布流網頁高清圖JS爬蟲網頁
- 簡單的爬蟲程式爬蟲
- Python 爬蟲進階篇-利用beautifulsoup庫爬取網頁文章內容實戰演示Python爬蟲網頁