Python 使用socket模擬http請求，從阻塞到協程

青穗黃發表於2018-10-30

原文網址 : https://juejin.im/post/5bd80c46f265da0af7756744

阻塞式

import socket
from urllib.parse import urlparse


def get_url(url):
    url = urlparse(url)
    host = url.netloc
    path = url.path
    if path == "":
        path = "/"

    client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    client.connect((host, 80))
    # 模擬http協議
    client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(path, host).encode('utf8'))
    data = b''
    while True:
        d = client.recv(1024)
        if d:
            data += d
        else:
            break
    data = data.decode('utf8')
    html_data = data.split("\r\n\r\n")[1]  # 去掉請求頭
    print(html_data)
    client.close()

if __name__=="__main__":
    get_url("http://www.baidu.com")
複製程式碼

非阻塞因為要詢問連線是否建立好，需要while迴圈不停的檢查狀態，多餘消耗了CPU

import socket
from urllib.parse import urlparse


def get_url(url):
    url = urlparse(url)
    host = url.netloc
    path = url.path
    if path == '':
        path = '/'

    client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
    client.setblocking(False)  # 設定為非阻塞

    try:
        client.connect((host, 80))
    except BlockingIOError as e:
        pass

    while True:
        try:
            client.send(
                'GET {path} HTTP/1.1\r\nHost:{host}\r\nConnection:close\r\n\r\n'.format(path=path, host=host).encode(
                    'utf8'))
            break
        except OSError as e:
            pass

    data = b''
    while True:
        try:
            d = client.recv(1024)
        except BlockingIOError as e:
            continue

        if d:
            data += d
        else:
            break

    data = data.decode('utf8')
    html_data = data.split('\r\n\r\n')[1]
    print(html_data)
    client.close()


if __name__ == '__main__':
    get_url('http://www.baidu.com')

複製程式碼

select(poll/epoll) + 回撥 + 事件迴圈看起來比較複雜，為什麼要改成這樣呢，因為只會處理那些準備好的socket，不會等待網路I/O，使用單執行緒模式，省去了執行緒間切換的開銷。實現了單執行緒併發，併發性高但這種回撥的寫法實在是太蛋疼

import socket
from urllib.parse import urlparse
# 是select更易用的一個封裝，會根據平臺 win/linux 去自動選擇select/epull
from selectors import DefaultSelector, EVENT_READ, EVENT_WRITE

selector = DefaultSelector()

urls = ['http://www.baidu.com']
stop = False
class Fetch:
    def connected(self, key):
        selector.unregister(key.fd) # 登出監控的事件
        self.client.send('GET {path} HTTP/1.1\r\nHost:{host}\r\nConnection:close\r\n\r\n'.format(path=self.path, host=self.host).encode(
                    'utf8'))
        selector.register(self.client.fileno(), EVENT_READ,self.readable)

    def readable(self, key):
        d = self.client.recv(1024)
        if d:
            self.data += d
        else:
            selector.unregister(key.fd)

        data = self.data.decode('utf8')
        html_data = data.split('\r\n\r\n')[1]
        print(html_data)
        self.client.close()
        urls.remove(self.spider_url)
        if not urls:
            global stop
            stop = True


    def get_url(self, url):
        self.spider_url = url
        url = urlparse(url)
        self.host = url.netloc
        self.path = url.path
        self.data = b''
        if self.path == '':
            self.path = '/'

        self.client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.client.setblocking(False)

        try:
            self.client.connect((self.host, 80))
        except BlockingIOError as e:
            pass

        # 註冊
        selector.register(self.client.fileno(), EVENT_WRITE, self.connected)

def loop():
    # 事件迴圈，不停的請求socket的狀態並呼叫對應的回撥函式
    # 1. select 本身是不支援register模式
    # 2. socket撞田變化以後的回撥式是由程式設計師完成的
    while not stop:
        ready = selector.select()
        for key, mask in ready:
            call_back = key.data
            call_back(key)



if __name__ == '__main__':
    fetcher = Fetch()
    fetcher.get_url('http://www.baidu.com')
    loop()
複製程式碼

可以說：同步模式併發性不高，回撥模式編碼複雜度高，多執行緒需要執行緒間同步，影響併發效能。

使用 Netcat 模擬 HTTP 請求
2018-11-28
HTTP
SQL Server儲存過程模擬HTTP請求POST和GET協議
2020-05-23
SQLServer儲存過程HTTP協議
C#模擬HTTP請求Post JSON
2019-01-04
C#HTTPJSON
使用 node 模擬請求介面
2019-04-20
使用Socket進行HTTP請求與報文講解
2019-01-05
HTTP
HTTP的請求過程
2019-03-12
HTTP
python做http請求
2019-02-14
PythonHTTP
Python 之requests封裝通用http協議介面請求
2019-12-05
Python封裝HTTP協議
使用Python獲取HTTP請求頭資料
2024-06-17
PythonHTTP
使用postman模擬登陸post請求方法
2020-11-10
Postman
使用Mock.js模擬資料請求
2018-03-08
MockJS
Node.js模擬發起http請求從非同步轉同步的5種方法
2019-03-01
Node.jsHTTP非同步
HTTP協議如何發起請求
2019-07-19
HTTP協議
HTTP 協議六種請求方法
2019-05-20
HTTP協議
ASP.NET Core擴充套件庫之Http請求模擬
2021-04-26
ASP.NET套件HTTP
Python網路程式設計（socket模組、緩衝區、http協議）
2018-08-08
Python程式設計HTTP協議
python-http請求帶Authorization
2018-08-13
PythonHTTP
python傳送HTTP POST請求
2018-06-03
PythonHTTP
使用 $fetch 進行 HTTP 請求
2024-08-02
HTTP
使用Feign傳送HTTP請求
2020-11-23
HTTP
Jmeter —— jmeter設定HTTP資訊頭管理器模擬請求頭
2024-03-14
JMeterHTTP
協議層的攻擊：HTTP請求走私
2019-10-11
協議HTTP
CTFHub web前置技能HTTP協議請求方式
2020-10-26
WebHTTP協議
【python介面自動化】- 使用requests庫傳送http請求
2020-08-16
PythonHTTP
golang使用fasthttp 發起http請求
2019-01-30
GolangASTHTTP
nodejs使用request傳送http請求
2023-03-28
NodeJSHTTP
Python中get、post請求詳解(HTTP請求頭、狀態碼)
2020-03-09
PythonHTTP
Linux curl 命令模擬 POST/GET 請求
2018-08-28
Linux
HTTP協議的請求與資料抓包
2021-09-09
HTTP協議
解密協議層的攻擊——HTTP請求走私
2021-02-19
解密協議HTTP
http請求概述
2019-03-18
HTTP
Jsoup http請求
2019-02-01
JSHTTP
go http請求
2024-06-12
GoHTTP
Java HTTP/2 客戶端：從阻塞到非同步 - sanjeevr
2022-05-05
JavaHTTP客戶端非同步VR
Vue-cli 使用json server在本地模擬請求資料
2019-03-04
VueJSONServer
使用socket+gevent實現協程併發
2018-08-24
windows中使用cmd發起http請求
2024-03-06
WindowsHTTP
使用requests庫來傳送HTTP請求
2023-11-08
HTTP

Python 使用socket模擬http請求，從阻塞到協程

相關文章