資料採集爬蟲ip代理基本原理
-
代理的作用
4. 代理分類
代理分類時,既可以根據協議區分,也可以根據其匿名程度區分。 (1) 根據協議
根據代理的協議,代理可以分為如下類別。
FTP代理伺服器:主要用於訪問FTP伺服器,一般有上傳、下載以及快取功能,埠一般為21、2121等。
HTTP代理伺服器:主要用於訪問網頁,一般有內容過濾和快取功能,埠一般為80、8080、3128等。
SSL/TLS代理:主要用於訪問加密網站,一般有SSL或TLS加密功能(最高支援128位加密強度),埠一般為443。
RTSP代理:主要用於訪問Real流媒體伺服器,一般有快取功能,埠一般為554。
Telnet代理:主要用於telnet遠端控制(駭客入侵計算機時常用於隱藏身份),埠一般為23。
POP3/SMTP代理:主要用於POP3/SMTP方式收發郵件,一般有快取功能,埠一般為110/25。
SOCKS代理:只是單純傳遞資料包,不關心具體協議和用法,所以速度快很多,一般有快取功能,埠一般為1080。
SOCKS代理協議又分為SOCKS4和SOCKS5,前者只支援TCP,而後者支援TCP和UDP,還支援各種身份驗證機制、伺服器端域名解析等。簡單來說,SOCK4能做到的SOCKS5都可以做到,但SOCKS5能做到的SOCK4不一定能做到。
(2) 根據匿名程度
根據代理的匿名程度,代理可以分為如下類別。
高匿名代理:會將資料包原封不動地轉發,在服務端看來就好像真的是一個普通客戶端在訪問,而記錄的IP是代理伺服器的IP。
普通匿名代理:會在資料包上做一些改動,服務端上有可能發現這是個代理伺服器,也有一定機率追查到客戶端的真實IP。代理伺服器通常會加入的HTTP頭有HTTP_VIA和HTTP_X_FORWARDED_FOR。
透明代理:不但改動了資料包,還會告訴伺服器客戶端的真實IP。這種代理除了能用快取技術提高瀏覽速度,能用內容過濾提高安全性之外,並無其他顯著作用,最常見的例子是內網中的硬體防火牆。
間諜代理:指組織或個人建立的用於記錄使用者傳輸的資料,然後進行研究、監控等目的的代理伺服器。
常見代理設定
使用網上的免費代理:最好使用高匿代理,另外可用的代理不多,需要在使用前篩選一下可用代理,也可以進一步維護一個代理池。
使用付費代理服務:網際網路上存在許多代理商,可以付費使用,質量比免費代理好很多。
ADSL撥號:撥一次號換一次IP,穩定性高,但是比較繁瑣,也是一種比較有效的解決方案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903461/viewspace-2642610/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 爬蟲採集自建代理ip池的三大優勢爬蟲
- 爬蟲採集對於代理IP的五大需求爬蟲
- HTTP代理如何助力爬蟲採集工作?HTTP爬蟲
- 爬蟲資料採集的工作原理爬蟲
- python爬蟲利用代理IP分析大資料Python爬蟲大資料
- 代理IP對金融資料採集的作用
- 爬蟲可以通過代理ip收集哪些資料?爬蟲
- Scrapy爬蟲框架如何使用代理進行採集爬蟲框架
- Python爬蟲初學二(網路資料採集)Python爬蟲
- 網站如何判斷爬蟲在採集資料?網站爬蟲
- Python爬蟲抓取資料,為什麼要使用代理IP?Python爬蟲
- 爬蟲使用代理防封IP爬蟲
- 如何建立爬蟲代理ip池爬蟲
- 爬蟲如何使用ip代理池爬蟲
- 爬蟲代理怎麼選ip爬蟲
- 代理IP如何突破反爬蟲?爬蟲
- 爬蟲代理IP的使用技巧爬蟲
- 爬蟲筆記:提高資料採集效率!代理池和執行緒池的使用爬蟲筆記執行緒
- python爬蟲 之 scrapy框架採集2000期彩票資料Python爬蟲框架
- 如何高效獲取大資料?動態ip代理:用爬蟲!大資料爬蟲
- 實用爬蟲-02-爬蟲真正使用代理 ip爬蟲
- 用Python爬蟲抓取代理IPPython爬蟲
- Python爬蟲技巧---設定代理IPPython爬蟲
- 爬蟲代理IP有哪些好處?爬蟲
- 使用爬蟲代理採集網站失敗的解決方法爬蟲網站
- 新手使用python採集資料的尷尬事之代理ipPython
- Python爬蟲進階之代理的基本原理Python爬蟲
- python爬蟲實戰:爬取西刺代理的代理ip(二)Python爬蟲
- 如何提高爬取爬蟲採集的效率?爬蟲
- 文章採集代理ip怎麼用?
- Python代理IP爬蟲的簡單使用Python爬蟲
- Python 爬蟲IP代理池的實現Python爬蟲
- 爬蟲代理IP產品如何選擇爬蟲
- 爬蟲中代理IP的常見方案爬蟲
- 網路爬蟲怎麼使用ip代理爬蟲
- 代理ip池對爬蟲有多重要爬蟲
- 爬蟲需要代理IP的基本要求爬蟲
- 爬蟲代理IP的三大作用爬蟲