好程式設計師Python培訓分享Python之初識網路爬蟲

好程式設計師發表於2020-09-21

   好程式設計師Python 培訓分享 Python 之初識網路爬蟲, Python 是一種怎樣的計算機程式設計語言 ? 你可能已經聽說過很多種流行程式語言,比如非常難學的 C 語言,非常流行的 Java 語言,適合初學者的 Basic 語言,適合網頁程式設計的 JavaScript 語言,那麼零基礎學 Python 之初識網路爬蟲,今天我們先從網路爬蟲的定義、與瀏覽器的相似之處和網路請求等基礎內容入手。

   1 、零基礎學 Python 之初識網路爬蟲—網路爬蟲的定義

   網路爬蟲( 又被稱為網頁蜘蛛,網路機器人 ) ,是一種按照一定的規則,自動的抓取全球資訊網資訊的程式或者指令碼,是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的 URL 開始,獲得初始網頁上的 URL ,在抓取網頁的過程中,不斷從當前頁面上抽取新的 URL 放入佇列,直到滿足系統的一定停止條件。

   2 、零基礎學 Python 之初識網路爬蟲—網路爬蟲與瀏覽器相似之處

   網路爬蟲的抓取過程可以理解為 模擬瀏覽器操作的過程。

   瀏覽器的主要功能就是向伺服器發出請求,在瀏覽器視窗中展示您選擇的網路資源。這裡所說的資源一般是指 HTML 文件,也可以是 PDF 、圖片或其他的型別。

   資源的位置由使用者使用 URI( 統一資源標示符 ) 指定。

   瀏覽器解釋並顯示HTML 檔案的方式是在 HTML CSS 規範中指定的。這些規範由網路標準化組織 W3C( 全球資訊網聯盟 ) 進行維護。

   3 、零基礎學 Python 之初識網路爬蟲—網路爬蟲抓什麼

   一般來講,抓取的內容主要來源於網頁,目前,隨著這幾年移動網際網路的發展,越來越多資訊來源於移動網際網路App H5 等,所以爬蟲就不止侷限於一定要抓取解析網頁,還有移動網際網路 app H5 等的網路請求進行抓取

   對網路爬蟲而言,需要抓取的是某個網站或者某個應用的內容,提取有用的價值。

   4 、零基礎學 Python 之初識網路爬蟲—瞭解網路請求

   網路爬蟲以HTTP HTTPS 請求為主,讀取網頁內容,提取有用的價值,內容一般分為兩部分,非結構化的文字,或結構化的文字。

   超文字傳輸協議(HTTP HyperText Transfer Protocol) 是網際網路上應用最為廣泛的一種網路協議。所有的 WWW 檔案都必須遵守這個標準。設計 HTTP 最初的目的是為了提供一種釋出和接收 HTML 頁面的方法。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69913864/viewspace-2722780/,如需轉載,請註明出處,否則將追究法律責任。

相關文章