爬蟲入門第一章
什麼是爬蟲
簡單理解就是獲取網路上面的資料 比如爬取視訊,小說,圖片,音樂等等
直接開始
為什麼不介紹爬蟲的歷史,以及一些詳細的東西,學習一個東西,為什麼非要去學前面那麼多沒有用的呢?我們哪裡不會學哪裡,雖然聽著不靠譜,但學起來節約時間
爬蟲的核心
1.你要爬什麼(好確定爬取介面的具體網址)
2.怎麼只爬下來你想要的(專業術語,資料解析)
有這三種方式(正則,xpath,BeautifulSoup)
3.爬下來的資料是直接列印還是存起來(資料儲存)
基本思路
1.爬取的網頁地址
(1)可能是分頁的,多頁或整站的
2.如何從爬取到的網頁中,篩選出想要的資料
(1)正規表示式
(2)b4
(3)xpath
3.儲存到本地還是資料庫,是什麼形式的
(1)可以儲存為txt
(2)可以儲存成excel
等多種格式
第一個案例爬取百度介面
import requests #匯入要進行爬取的包
url='https://www.baidu.com'#既然要爬取那就要知道具體的位置
page=requests.get(url).text.encode('utf-8')#將爬取到的文字賦值給變數
print(page)#列印出來爬取的結果
爬取P站圖片
import requests
import re
# 匯入需要的包
url="http://acg17.com/65482.html"
#要爬取的地址
res=requests.get(url).text
#獲取到爬取下來的頁面內容
pic_url=re.findall(r"https:.+\.jpg",res)
#使用正則解析
add='https://ae01.alicdn.com/kf/HTB18ehESIfpK1RjSZFOq6y6nFXaf.jpg'
with open('nv.jpg','wb') as op:
q=requests.get(add).content
op.write(q)
#儲存
for key in pic_url:
print(key)
#輸出
相關文章
- 爬蟲入門爬蟲
- Python爬蟲入門Python爬蟲
- 【爬蟲】python爬蟲從入門到放棄爬蟲Python
- python-爬蟲入門Python爬蟲
- 爬蟲(1) - 爬蟲基礎入門理論篇爬蟲
- 爬蟲入門(HTTP和HTTPS)爬蟲HTTP
- 爬蟲入門(字串相關)爬蟲字串
- 爬蟲入門基礎-Python爬蟲Python
- python3 爬蟲入門Python爬蟲
- Python爬蟲入門,8個常用爬蟲技巧盤點Python爬蟲
- 什麼是Python爬蟲?python爬蟲入門難嗎?Python爬蟲
- python爬蟲 之 BeautifulSoup庫入門Python爬蟲
- 三分鐘爬蟲入門爬蟲
- Python3爬蟲入門(一)Python爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- 為什麼學習python及爬蟲,Python爬蟲[入門篇]?Python爬蟲
- 帶你入門Python爬蟲,8個常用爬蟲技巧盤點Python爬蟲
- Python爬蟲入門【9】:圖蟲網多執行緒爬取Python爬蟲執行緒
- 第一章 爬蟲介紹爬蟲
- Python爬蟲入門教程導航帖Python爬蟲
- 5 行程式碼就能入門爬蟲?行程爬蟲
- Python3 爬蟲快速入門攻略Python爬蟲
- scrapy入門教程()部署爬蟲專案爬蟲
- Python網路爬蟲4 - scrapy入門Python爬蟲
- 爬蟲工程師的入門簡介爬蟲工程師
- 爬蟲工程師的unidbg入門教程爬蟲工程師
- Scrapy使用入門及爬蟲代理配置爬蟲
- python入門之爬蟲工具有哪些?Python爬蟲
- 爬蟲程式十分鐘入門爬蟲
- 爬蟲入門學習筆記3爬蟲筆記
- 04selenium爬蟲輕鬆入門爬蟲
- [雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門Python爬蟲
- Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作Python爬蟲
- 不踩坑的Python爬蟲:Python爬蟲開發與專案實戰,從爬蟲入門 PythonPython爬蟲
- Python爬蟲入門【11】:半次元COS圖爬取Python爬蟲
- Python爬蟲入門【3】:美空網資料爬取Python爬蟲
- Python 從入門到爬蟲極簡教程Python爬蟲
- Python爬蟲怎麼入門-初級篇Python爬蟲