好程式設計師Python 培訓分享 Python 之初識網路爬蟲， Python 是一種怎樣的計算機程式設計語言 ? 你可能已經聽說過很多種流行程式語言，比如非常難學的 C 語言，非常流行的 Java 語言，適合初學者的 Basic 語言，適合網頁程式設計的 JavaScript 語言，那麼零基礎學 Python 之初識網路爬蟲，今天我們先從網路爬蟲的定義、與瀏覽器的相似之處和網路請求等基礎內容入手。

　　 1 、零基礎學 Python 之初識網路爬蟲—網路爬蟲的定義

　　網路爬蟲( 又被稱為網頁蜘蛛，網路機器人 ) ，是一種按照一定的規則，自動的抓取全球資訊網資訊的程式或者指令碼，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的 URL 開始，獲得初始網頁上的 URL ，在抓取網頁的過程中，不斷從當前頁面上抽取新的 URL 放入佇列，直到滿足系統的一定停止條件。

　　 2 、零基礎學 Python 之初識網路爬蟲—網路爬蟲與瀏覽器相似之處

　　網路爬蟲的抓取過程可以理解為模擬瀏覽器操作的過程。

　　瀏覽器的主要功能就是向伺服器發出請求，在瀏覽器視窗中展示您選擇的網路資源。這裡所說的資源一般是指 HTML 文件，也可以是 PDF 、圖片或其他的型別。

　　資源的位置由使用者使用 URI( 統一資源標示符 ) 指定。

　　瀏覽器解釋並顯示HTML 檔案的方式是在 HTML 和 CSS 規範中指定的。這些規範由網路標準化組織 W3C( 全球資訊網聯盟 ) 進行維護。

　　 3 、零基礎學 Python 之初識網路爬蟲—網路爬蟲抓什麼

　　一般來講，抓取的內容主要來源於網頁，目前，隨著這幾年移動網際網路的發展，越來越多資訊來源於移動網際網路App 、 H5 等，所以爬蟲就不止侷限於一定要抓取解析網頁，還有移動網際網路 app 、 H5 等的網路請求進行抓取

　　對網路爬蟲而言，需要抓取的是某個網站或者某個應用的內容，提取有用的價值。

　　 4 、零基礎學 Python 之初識網路爬蟲—瞭解網路請求

　　網路爬蟲以HTTP 、 HTTPS 請求為主，讀取網頁內容，提取有用的價值，內容一般分為兩部分，非結構化的文字，或結構化的文字。

　　超文字傳輸協議(HTTP ， HyperText Transfer Protocol) 是網際網路上應用最為廣泛的一種網路協議。所有的 WWW 檔案都必須遵守這個標準。設計 HTTP 最初的目的是為了提供一種釋出和接收 HTML 頁面的方法。

好程式設計師Python培訓分享Python之初識網路爬蟲

相關文章