簡單的爬蟲:爬取網站內容正文與圖片

wangsys發表於2021-09-09

我們來寫個簡單的爬蟲####

需要用到的模組

需要用到python的urllib和lxml模組,urllib為python的自帶模組,lxml需要自行安裝:

pip install lxml

簡單介紹urllib和lxml的使用

我們使用urllib來爬去一個網頁比如:

In [1]: import urllib

In [2]: # 爬起豆瓣首頁In [3]: html = urllib.urlopen("").read()

In [4]: # 整個html列印出來太多,這裡我們就儲存在檔案中,再檢視In [5]: of = open("db_index.html","w")

In [6]: of.write(html)

In [7]: of.close()

圖片描述

使用lxml主要用於解析網頁(這裡只是簡單示範),比如:

In [8]: from lxml import etree

In [9]: html = u'

我是標題

哈哈哈哈

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/3244/viewspace-2809922/,如需轉載,請註明出處,否則將追究法律責任。

相關文章