爬蟲學習-初次上路

Micheal Zhu發表於2020-11-21

最近在參加一個比賽的時候,發現大量的資料支援是數學模型的基礎。而大量的資料則是通過網路的途徑。其中一個比較方便便捷的方法是爬蟲。這篇文章就是我關於爬蟲的學習筆記。通過很多網上的大佬和資料總結了自己的學習心得。

爬蟲的實現我是使用python來實現的。但是在瞭解如何敲程式碼前。我是先觀察了關於網頁的前端程式碼。是這個樣子。
在這裡插入圖片描述
最顯著的就是頂端的HTML。HTML的定義就是超文字標記語言,主要用於建立web,建立網站時候所用的語言。當然裡面也有涉及css和js兩種語言。

在我理解中,所謂的爬蟲就是把我們所看到的網站的圖片或者語言給抓取下來。比如在這裡你想要獲取一個圖片。那麼你就需要找到它對應的程式碼。如圖所示
在這裡插入圖片描述

對應下來這個黑色的圖片就是黑色方塊包起來的程式碼。那麼剛剛做到這一點的步驟就是先按F12(windows作業系統),然後選擇左上角的滑鼠小標籤
在這裡插入圖片描述
。拖動滑鼠點選你想選擇抓取的圖片或一個文字。相對應得下面程式碼部分就會告訴這個部分對應的程式碼是哪裡了。

之前再看別人關於網頁程式碼的部落格的時候,說到關於動態網頁和靜態網頁的區別。但我看了很多,也爬了一些說是動態網頁的網站和問了其他人。發現其實你能在這個網頁看到的東西,任何資料或者是圖片,都會包含在你按完F12後出來的程式碼裡面。所以,在做最起初的爬蟲技術的時候,其實不用太需要考慮關於動態與靜態網頁的區別。

Python設定:

再寫爬蟲之前,我自己用的是PYcharm這個IDE。如果沒有就可以在度娘上搜官網就可以下載了。然後下載完之後,就需要下載一些python自帶的安裝包(雖然自帶,但是還要自己下載的)。主要的下載辦法就是CMD(windows作業系統)。開啟命令列後,輸入

pip install + “某個安裝包的名字”就可以了
在這裡插入圖片描述
這裡我建議大家直接一次性下完後期可能都需要的安裝包就好了。一般包含這些
在這裡插入圖片描述
大部分直接把import後面的英文輸入到pip
install後面即可。Cmd就會有下載的過程出現。如果cmd提示你沒有該安裝包。就可以上網搜比如:python
requests在那個安裝包裡面。然後再把那個安裝包放入pip install 後面即可。

安裝包放入pip install 後面即可。

這就是再寫程式碼之前該做的事情了。後面就會慢慢去講該怎麼去敲程式碼了。

相關文章