Select 模型簡介

發表於2016-01-09

多路複用I/O

在簡明網路I/O模型文章可以知道常用的IO模型。其中同步模型中，使用多路複用I/O可以提高伺服器的效能。

在多路複用的模型中，比較常用的有select模型和poll模型。這兩個都是系統介面，由作業系統提供。當然，Python的select模組進行了更高階的封裝。select與poll的底層原理都差不多。下面就介紹select。

select 原理

網路通訊被Unix系統抽象為檔案的讀寫，通常是一個裝置，由裝置驅動程式提供，驅動可以知道自身的資料是否可用。支援阻塞操作的裝置驅動通常會實現一組自身的等待佇列，如讀/寫等待佇列用於支援上層(使用者層)所需的block或non-block操作。裝置的檔案的資源如果可用（可讀或者可寫）則會通知程式，反之則會讓程式睡眠，等到資料到來可用的時候，再喚醒程式。

這些裝置的檔案描述符被放在一個陣列中，然後select呼叫的時候遍歷這個陣列，如果對於的檔案描述符可讀則會返回改檔案描述符。當遍歷結束之後，如果仍然沒有一個可用裝置檔案描述符，select讓使用者程式則會睡眠，直到等待資源可用的時候在喚醒，遍歷之前那個監視的陣列。每次遍歷都是線性的。

select 回顯伺服器

select涉及系統呼叫和作業系統相關的知識，因此單從字面上理解其原理還是比較乏味。用程式碼來演示最好不過了。使用python的select模組很容易寫出下面一個回顯伺服器：

import select
import socket
import sys

HOST = 'localhost'
PORT = 5000
BUFFER_SIZE = 1024

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
server.bind((HOST, PORT))
server.listen(5)

inputs = [server, sys.stdin]
running = True

while True:
    try:
        # 呼叫 select 函式，阻塞等待
        readable, writeable, exceptional = select.select(inputs, [], [])
    except select.error, e:
        break

    # 資料抵達，迴圈
    for sock in readable:
        # 建立連線
        if sock == server:
            conn, addr = server.accept()
            # select 監聽的socket
            inputs.append(conn)
        elif sock == sys.stdin:
            junk = sys.stdin.readlines()
            running = False
        else:
            try:
                # 讀取客戶端連線傳送的資料
                data = sock.recv(BUFFER_SIZE)
                if data:
                    sock.send(data)
                    if data.endswith('\r\n\r\n'):
                        # 移除select監聽的socket
                        inputs.remove(sock)
                        sock.close()
                else:
                    # 移除select監聽的socket
                    inputs.remove(sock)
                    sock.close()
            except socket.error, e:
                inputs.remove(sock)

server.close()

import select

import socket

import sys

HOST = 'localhost'

PORT = 5000

BUFFER_SIZE = 1024

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server.bind((HOST, PORT))

server.listen(5)

inputs = [server, sys.stdin]

running = True

while True:

try:

# 呼叫 select 函式，阻塞等待

readable, writeable, exceptional = select.select(inputs, [], [])

except select.error, e:

break

# 資料抵達，迴圈

for sock in readable:

# 建立連線

if sock == server:

conn, addr = server.accept()

# select 監聽的socket

inputs.append(conn)

elif sock == sys.stdin:

junk = sys.stdin.readlines()

running = False

else:

try:

# 讀取客戶端連線傳送的資料

data = sock.recv(BUFFER_SIZE)

if data:

sock.send(data)

if data.endswith('\r\n\r\n'):

# 移除select監聽的socket

inputs.remove(sock)

sock.close()

else:

# 移除select監聽的socket

inputs.remove(sock)

sock.close()

except socket.error, e:

inputs.remove(sock)

server.close()

執行上述程式碼，使用curl訪問http://localhost:5000，即可看命令列返回請求的HTTP request資訊。

下面詳細解析上述程式碼的原理。

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
server.bind((HOST, PORT))
server.listen(5)

server = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

server.bind((HOST, PORT))

server.listen(5)

上述程式碼使用socket初始化一個TCP套接字，並繫結主機地址和埠，然後設定伺服器監聽。

inputs = [server, sys.stdin]

1	inputs = [server, sys.stdin]

這裡定義了一個需要select監聽的列表，列表裡面是需要監聽的物件（等於系統監聽的檔案描述符）。這裡監聽socket套接字和使用者的輸入。

然後程式碼進行一個伺服器無線迴圈。

try:
    # 呼叫 select 函式，阻塞等待
    readable, writeable, exceptional = select.select(inputs, [], [])
except select.error, e:
    break

try:

# 呼叫 select 函式，阻塞等待

readable, writeable, exceptional = select.select(inputs, [], [])

except select.error, e:

break

呼叫了select函式，開始迴圈遍歷監聽傳入的列表inputs。如果沒有curl伺服器，此時沒有建立tcp客戶端連線，因此改列表內的物件都是資料資源不可用。因此select阻塞不返回。

客戶端輸入curl http://localhost:5000之後，一個套接字通訊開始，此時input中的第一個物件server由不可用變成可用。因此select函式呼叫返回，此時的readable有一個套接字物件（檔案描述符可讀）。

for sock in readable:
    # 建立連線
    if sock == server:
        conn, addr = server.accept()
        # select 監聽的socket
        inputs.append(conn)

for sock in readable:

# 建立連線

if sock == server:

conn, addr = server.accept()

# select 監聽的socket

inputs.append(conn)

select返回之後，接下來遍歷可讀的檔案物件，此時的可讀中只有一個套接字連線，呼叫套接字的accept()方法建立TCP三次握手的連線，然後把該連線物件追加到inputs監視列表中，表示我們要監視該連線是否有資料IO操作。

由於此時readable只有一個可用的物件，因此遍歷結束。再回到主迴圈，再次呼叫select，此時呼叫的時候，不僅會遍歷監視是否有新的連線需要建立，還是監視剛才追加的連線。如果curl的資料到了，select再返回到readable，此時在進行for迴圈。如果沒有新的套接字，將會執行下面的程式碼：

try:
    # 讀取客戶端連線傳送的資料
    data = sock.recv(BUFFER_SIZE)
    if data:
        sock.send(data)
        if data.endswith('rnrn'):
            # 移除select監聽的socket
            inputs.remove(sock)
            sock.close()
    else:
        # 移除select監聽的socket
        inputs.remove(sock)
        sock.close()
except socket.error, e:
    inputs.remove(sock)

try:

# 讀取客戶端連線傳送的資料

data = sock.recv(BUFFER_SIZE)

if data:

sock.send(data)

if data.endswith('rnrn'):

# 移除select監聽的socket

inputs.remove(sock)

sock.close()

else:

# 移除select監聽的socket

inputs.remove(sock)

sock.close()

except socket.error, e:

inputs.remove(sock)

通過套接字連線呼叫recv函式，獲取客戶端傳送的資料，當資料傳輸完畢，再把監視的inputs列表中除去該連線。然後關閉連線。

整個網路互動過程就是如此，當然這裡如果使用者在命令列中輸入中斷，inputs列表中監視的sys.stdin也會讓select返回，最後也會執行下面的程式碼：

elif sock == sys.stdin:
    junk = sys.stdin.readlines()
    running = False

elif sock == sys.stdin:

junk = sys.stdin.readlines()

running = False

有人可能有疑問，在程式處理sock連線的是時候，假設又輸入了curl對伺服器請求，將會怎麼辦？此時毫無疑問，inputs裡面的server套接字會變成可用。等現在的for迴圈處理完畢，此時select呼叫就會返回server。如果inputs裡面還有上一個過程的conn連線，那麼也會迴圈遍歷inputs的時候，再一次針對新的套接字accept到inputs列表進行監視，然後繼續迴圈處理之前的conn連線。如此有條不紊的進行，直到for迴圈結束，進入主迴圈呼叫select。

任何時候，inputs監聽的物件有資料，下一次呼叫select的時候，就會繁返回readable，只要返回，就會對readable進行for迴圈，直到for迴圈結束在進行下一次select。

主要注意，套接字建立連線是一次IO，連線的資料抵達也是一次IO。

select的不足

儘管select用起來挺爽，跨平臺的特性。但是select還是存在一些問題。
select需要遍歷監視的檔案描述符，並且這個描述符的陣列還有最大的限制。隨著檔案描述符數量的增長，使用者態和核心的地址空間的複製所引發的開銷也會線性增長。即使監視的檔案描述符長時間不活躍了，select還是會線性掃描。

為了解決這些問題，作業系統又提供了poll方案，但是poll的模型和select大致相當，只是改變了一些限制。目前Linux最先進的方式是epoll模型。

許多高效能的軟體如nginx, nodejs都是基於epoll進行的非同步。

【Kotlin】select簡介
2024-12-08
Kotlin
8 語言模型簡介
2020-01-08
模型
信貸風控模型開發----模型簡介
2018-03-21
模型
Java記憶體模型簡介
2019-09-11
Java記憶體模型
Java記憶體模型 - 簡介
2020-08-13
Java記憶體模型
ASP.NET MVC – 模型簡介
2022-02-25
ASP.NETMVC模型
盒子模型Box Model簡介
2020-12-08
模型
網路 IO 模型簡單介紹
2020-12-16
模型
Apache Kafka資料模型概念簡介 - Baeldung
2021-01-05
ApacheKafka模型
簡單的介紹 Eloquent 模型生命週期
2019-01-23
模型
深度學習 CNN 和 RNN 等模型簡介
2019-12-17
深度學習CNNRNN模型
Nelsen-Siegel—Svensson擴充套件模型簡介
2020-11-16
套件模型
LDA主題模型簡介及Python實現
2022-10-31
LDA模型Python
常見物聯網模型優缺點簡介
2024-03-20
模型
EAV（實體-屬性-值）模型簡單介紹
2024-11-07
模型
大規模 Transformer 模型 8 位元矩陣乘簡介
2023-05-02
ORM模型矩陣
Netty權威指南：Linux網路 I/O 模型簡介
2021-04-02
NettyLinux模型
用python做時間序列預測九：ARIMA模型簡介
2020-06-16
Python模型
GBase 8s SELECT 觸發器介紹
2021-11-23
觸發器
簡介
2024-09-22
Jira使用簡介 HP ALM使用簡介
2020-11-03
008 Rust 非同步程式設計，select 宏介紹
2020-07-01
Rust非同步程式設計
008 Rust 非同步程式設計，select 巨集介紹
2020-07-01
Rust非同步程式設計
C IO複用select, epoll 簡單總結
2024-03-22
空間分析：4-1.分詞模型hanLP簡介與安裝
2020-11-28
分詞模型HanLP
BookKeeper 介紹(1)--簡介
2024-05-26
select 下拉框用 Select select = new Select (element) 方法失敗
2020-11-06
loadsh簡介
2019-02-16
Knative 簡介
2018-10-29
Javascript 簡介
2019-02-16
JavaScript
JanusGraph -- 簡介
2018-11-19
Linux簡介
2018-11-22
Linux
CSS 簡介
2018-11-21
CSS
反射簡介
2018-11-16
反射
CSS簡介
2018-11-17
CSS
JUC簡介
2018-12-11
sass簡介
2018-12-09
APIGateway 簡介
2019-02-27
APIGateway
Feign簡介
2019-01-29

Select 模型簡介

多路複用I/O

select 原理

select 回顯伺服器

select的不足

相關文章