爬蟲學習-初次上路
最近在參加一個比賽的時候,發現大量的資料支援是數學模型的基礎。而大量的資料則是通過網路的途徑。其中一個比較方便便捷的方法是爬蟲。這篇文章就是我關於爬蟲的學習筆記。通過很多網上的大佬和資料總結了自己的學習心得。
爬蟲的實現我是使用python來實現的。但是在瞭解如何敲程式碼前。我是先觀察了關於網頁的前端程式碼。是這個樣子。
最顯著的就是頂端的HTML。HTML的定義就是超文字標記語言,主要用於建立web,建立網站時候所用的語言。當然裡面也有涉及css和js兩種語言。
在我理解中,所謂的爬蟲就是把我們所看到的網站的圖片或者語言給抓取下來。比如在這裡你想要獲取一個圖片。那麼你就需要找到它對應的程式碼。如圖所示
對應下來這個黑色的圖片就是黑色方塊包起來的程式碼。那麼剛剛做到這一點的步驟就是先按F12(windows作業系統),然後選擇左上角的滑鼠小標籤
。拖動滑鼠點選你想選擇抓取的圖片或一個文字。相對應得下面程式碼部分就會告訴這個部分對應的程式碼是哪裡了。
之前再看別人關於網頁程式碼的部落格的時候,說到關於動態網頁和靜態網頁的區別。但我看了很多,也爬了一些說是動態網頁的網站和問了其他人。發現其實你能在這個網頁看到的東西,任何資料或者是圖片,都會包含在你按完F12後出來的程式碼裡面。所以,在做最起初的爬蟲技術的時候,其實不用太需要考慮關於動態與靜態網頁的區別。
Python設定:
再寫爬蟲之前,我自己用的是PYcharm這個IDE。如果沒有就可以在度娘上搜官網就可以下載了。然後下載完之後,就需要下載一些python自帶的安裝包(雖然自帶,但是還要自己下載的)。主要的下載辦法就是CMD(windows作業系統)。開啟命令列後,輸入
pip install + “某個安裝包的名字”就可以了
這裡我建議大家直接一次性下完後期可能都需要的安裝包就好了。一般包含這些
大部分直接把import後面的英文輸入到pip
install後面即可。Cmd就會有下載的過程出現。如果cmd提示你沒有該安裝包。就可以上網搜比如:python
requests在那個安裝包裡面。然後再把那個安裝包放入pip install 後面即可。
安裝包放入pip install 後面即可。
這就是再寫程式碼之前該做的事情了。後面就會慢慢去講該怎麼去敲程式碼了。
相關文章
- 【Python學習】爬蟲爬蟲爬蟲爬蟲~Python爬蟲
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- Android 淘寶 爬蟲 學習Android爬蟲
- 爬蟲學習日記(六)爬蟲
- 爬蟲學習日記(八)爬蟲
- 爬蟲學習日記(七)爬蟲
- 爬蟲學習日記(二)爬蟲
- 爬蟲學習日記(一)爬蟲
- 爬蟲學習日記(五)爬蟲
- 爬蟲學習日記(三)爬蟲
- python爬蟲學習1Python爬蟲
- 逆向爬蟲知識學習爬蟲
- selenium爬蟲學習1爬蟲
- 什麼是爬蟲?學習Python爬蟲難不難?爬蟲Python
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- 分散式爬蟲學習筆記分散式爬蟲筆記
- Python爬蟲學習系列教程Python爬蟲
- 爬蟲之CSS語法學習爬蟲CSS
- python爬蟲是什麼?學習python爬蟲難嗎Python爬蟲
- 爬蟲學習日記(六)完成第一個爬蟲任務爬蟲
- 爬蟲學習筆記:練習爬取多頁天涯帖子爬蟲筆記
- Python爬蟲學習(6): 爬取MM圖片Python爬蟲
- Python爬蟲學習(5): 簡單的爬取Python爬蟲
- python爬蟲js逆向學習(二)Python爬蟲JS
- 爬蟲學習日記(十二)解析PDF爬蟲
- 爬蟲實戰開發學習(一)爬蟲
- Python爬蟲學習筆記(三)Python爬蟲筆記
- 爬蟲入門學習筆記3爬蟲筆記
- python爬蟲學習筆記(二)Python爬蟲筆記
- Python爬蟲學習(2): httplibPython爬蟲HTTP
- 爬蟲-BeautifulSoup簡單分析和學習爬蟲
- Java學習-簡單爬蟲系統Java爬蟲
- Python 爬蟲 (六) -- Scrapy 框架學習Python爬蟲框架
- python爬蟲—學習筆記-4Python爬蟲筆記
- python爬蟲—學習筆記-2Python爬蟲筆記
- 學習C語言還是學習Python爬蟲?C語言Python爬蟲
- 一入爬蟲深似海,總結python爬蟲學習筆記!爬蟲Python筆記
- 為什麼學習python及爬蟲,Python爬蟲[入門篇]?Python爬蟲