爬蟲入門第一章

黑白子2000發表於2020-10-18

什麼是爬蟲

簡單理解就是獲取網路上面的資料 比如爬取視訊,小說,圖片,音樂等等

直接開始

為什麼不介紹爬蟲的歷史,以及一些詳細的東西,學習一個東西,為什麼非要去學前面那麼多沒有用的呢?我們哪裡不會學哪裡,雖然聽著不靠譜,但學起來節約時間

爬蟲的核心

1.你要爬什麼(好確定爬取介面的具體網址)
2.怎麼只爬下來你想要的(專業術語,資料解析)
	有這三種方式(正則,xpath,BeautifulSoup)
3.爬下來的資料是直接列印還是存起來(資料儲存)

基本思路

1.爬取的網頁地址
	(1)可能是分頁的,多頁或整站的
2.如何從爬取到的網頁中,篩選出想要的資料
	(1)正規表示式
	 (2)b4
	 (3)xpath
3.儲存到本地還是資料庫,是什麼形式的
	(1)可以儲存為txt
	(2)可以儲存成excel
	 等多種格式
第一個案例爬取百度介面
import requests #匯入要進行爬取的包
url='https://www.baidu.com'#既然要爬取那就要知道具體的位置
page=requests.get(url).text.encode('utf-8')#將爬取到的文字賦值給變數
print(page)#列印出來爬取的結果

爬取P站圖片

import requests
import re
# 匯入需要的包
url="http://acg17.com/65482.html"
#要爬取的地址
res=requests.get(url).text
#獲取到爬取下來的頁面內容
pic_url=re.findall(r"https:.+\.jpg",res)
#使用正則解析
add='https://ae01.alicdn.com/kf/HTB18ehESIfpK1RjSZFOq6y6nFXaf.jpg'

with open('nv.jpg','wb') as op:
    q=requests.get(add).content
    op.write(q)
#儲存
for key in pic_url:
    print(key)
#輸出

相關文章