Python 快速教程(網路01):原始Python伺服器

發表於2015-11-17

之前我的Python教程中有人留言,表示只學Python沒有用,必須學會一個框架(比如Django和web.py)才能找到工作。而我的想法是,掌握一個類似於框架的高階工具是有用的,但是基礎的東西可以讓你永遠不被淘汰。不要被工具限制了自己的發展。今天,我在這裡想要展示的,就是不使用框架,甚至不使用Python標準庫中的高階包,只使用標準庫中的socket介面(我不是很明白套接字這個翻譯,所以使用socket的英文名字),寫一個Python伺服器。

 

在當今Python伺服器框架 (framework, 比如Django, Twisted, web.py等等) 橫行的時代,從底層的socket開始寫伺服器似乎是一個出力不討好的笨方法。框架的意義在於掩蓋底層的細節,提供一套對於開發人員更加友好的API,並處理諸如MVC的佈局問題。框架允許我們快速的構建一個成型而且成熟的Python伺服器。然而,框架本身也是依賴於底層(比如socket)。對於底層socket的瞭解,不僅可以幫助我們更好的使用框架,更可以讓我們明白框架是如何設計的。更進一步,如果擁有良好的底層socket程式設計知識和其他系統程式設計知識,你完全可以設計並開發一款自己的框架。如果你可以從底層socket開始,實現一個完整的Python伺服器,支援使用者層的協議,並處理好諸如MVC(Model-View-Control)、多執行緒(threading)等問題,並整理出一套清晰的函式或者類,作為介面(API)呈現給使用者,你就相當於設計了一個框架。

socket介面是實際上是作業系統提供系統呼叫。socket的使用並不侷限於Python語言,你可以用C或者JAVA來寫出同樣的socket伺服器,而所有語言使用socket的方式都類似(Apache就是使用C實現的伺服器)。而你不能跨語言的使用框架。框架的好處在於幫你處理了一些細節,從而實現快速開發,但同時受到Python本身效能的限制。我們已經看到,許多成功的網站都是利用動態語言(比如Python, Ruby或者PHP,比如twitter和facebook)快速開發,在網站成功之後,將程式碼轉換成諸如C和JAVA這樣一些效率比較高的語言,從而讓伺服器能更有效率的面對每天億萬次的請求。在這樣一些時間,底層的重要性,就遠遠超過了框架。

 

下面的一篇文章雖然是在談JAVA,但我覺得也適用於Python的框架之爭。

http://yakovfain.com/2012/10/11/the-degradation-of-java-developers/

 

TCP/IP和socket

我們需要對網路傳輸,特別是TCP/IP協議socket有一定的瞭解。socket是程式間通訊的一種方法 (參考Linux程式間通訊),它是基於網路傳輸協議的上層介面。socket有許多種型別,比如基於TCP協議或者UDP協議(兩種網路傳輸協議)。其中又以TCP socket最為常用。TCP socket與雙向管道(duplex PIPE)有些類似,一個程式向socket的一端寫入或讀取文字流,而另一個程式可以從socket的另一端讀取或寫入,比較特別是,這兩個建立socket通訊的程式可以分別屬於兩臺不同的計算機。所謂的TCP協議,就是規定了一些通訊的守則,以便在網路環境下能夠有效實現上述程式間通訊過程。雙向管道(duplex PIPE)存活於同一臺電腦中,所以不必區分兩個程式的所在計算機的地址,而socket必須包含有地址資訊,以便實現網路通訊。一個socket包含四個地址資訊: 兩臺計算機的IP地址和兩個程式所使用的埠(port)。IP地址用於定位計算機,而port用於定位程式 (一臺計算機上可以有多個程式分別使用不同的埠)。

一個TCP socket連線的網路

TCP socket

在網際網路上,我們可以讓某臺計算機作為伺服器。伺服器開放自己的埠,被動等待其他計算機連線。當其他計算機作為客戶主動使用socket連線到伺服器的時候,伺服器就開始為客戶提供服務。

 

在Python中,我們使用標準庫中的socket包來進行底層的socket程式設計。

首先是伺服器端,我們使用bind()方法來賦予socket以固定的地址和埠,並使用listen()方法來被動的監聽該埠。當有客戶嘗試用connect()方法連線的時候,伺服器使用accept()接受連線,從而建立一個連線的socket:

 

socket.socket()建立一個socket物件,並說明socket使用的是IPv4(AF_INET,IP version 4)和TCP協議(SOCK_STREAM)。

 

然後用另一臺電腦作為客戶,我們主動使用connect()方法來搜尋伺服器端的IP地址(在Linux中,你可以用$ifconfig來查詢自己的IP地址)和埠,以便客戶可以找到伺服器,並建立連線:

 

在上面的例子中,我們對socket的兩端都可以呼叫recv()方法來接收資訊,呼叫sendall()方法來傳送資訊。這樣,我們就可以在分處於兩臺計算機的兩個程式間進行通訊了。當通訊結束的時候,我們使用close()方法來關閉socket連線。

(如果沒有兩臺計算機做實驗,也可以將客戶端IP想要connect的IP改為“127.0.0.1”這是個特殊的IP地址,用來連線當地主機。)

 

基於TCP socket的HTTP伺服器

上面的例子中,我們已經可以使用TCP socket來為兩臺遠端計算機建立連線。然而,socket傳輸自由度太高,從而帶來很多安全和相容的問題。我們往往利用一些應用層的協議(比如HTTP協議)來規定socket使用規則,以及所傳輸資訊的格式

 

HTTP協議利用請求回應(request-response)的方式來使用TCP socket。客戶端向伺服器發一段文字作為request,伺服器端在接收到request之後,向客戶端傳送一段文字作為response。在完成了這樣一次request-response交易之後,TCP socket被廢棄。下次的request將建立新的socket。request和response本質上說是兩個文字,只是HTTP協議對這兩個文字都有一定的格式要求。

request-response cycle

 

現在,我們寫出一個HTTP伺服器端:

 

深入HTTP伺服器程式

如我們上面所看到的,伺服器會根據request向客戶傳輸的兩條資訊text_contentpic_content中的一條,作為response文字。整個response分為起始行(start line), 頭資訊(head)和主體(body)三部分。起始行就是第一行:

它實際上又由空格分為三個片段,HTTP/1.x表示所使用的HTTP版本,200表示狀態(status code),200是HTTP協議規定的,表示伺服器正常接收並處理請求,OK是供人來閱讀的status code。

 

頭資訊跟隨起始行,它和主體之間有一個空行。這裡的text_content或者pic_content都只有一行的頭資訊,text_content用來表示主體資訊的型別為html文字:

而pic_content的頭資訊(Content-Type: image/jpg)說明主體的型別為jpg圖片(image/jpg)。

 

主體資訊為html或者jpg檔案的內容。

(注意,對於jpg檔案,我們使用’rb’模式開啟,是為了與windows相容。因為在windows下,jpg被認為是二進位制(binary)檔案,在UNIX系統下,則不需要區分文字檔案和二進位制檔案。)

 

我們並沒有寫客戶端程式,後面我們會用瀏覽器作為客戶端。request由客戶端程式發給伺服器。儘管request也可以像response那樣分為三部分,request的格式與response的格式並不相同。request由客戶傳送給伺服器,比如下面是一個request:

 

起始行可以分為三部分,第一部分為請求方法(request method),第二部分是URL,第三部分為HTTP版本。request method可以有GET, PUT, POST, DELETE, HEAD。最常用的為GET和POST。GET是請求伺服器傳送資源給客戶,POST是請求伺服器接收客戶送來的資料。當我們開啟一個網頁時,我們通常是使用GET方法;當我們填寫表格並提交時,我們通常使用POST方法。第二部分為URL,它通常指向一個資源(伺服器上的資源或者其它地方的資源)。像現在這樣,就是指向當前伺服器的當前目錄的test.jpg。

按照HTTP協議的規定,伺服器需要根據請求執行一定的操作。正如我們在伺服器程式中看到的,我們的Python程式先檢查了request的方法,隨後根據URL的不同,來生成不同的response(text_content或者pic_content)。隨後,這個response被髮送回給客戶端。

 

使用瀏覽器實驗

為了配合上面的伺服器程式,我已經在放置Python程式的資料夾裡,儲存了一個test.jpg圖片檔案。我們在終端執行上面的Python程式,作為伺服器端,再開啟一個瀏覽器作為客戶端。(如果有時間,你也完全可以用Python寫一個客戶端。原理與上面的TCP socket的客戶端程式相類似。)

在瀏覽器的位址列輸入:

(當然,你也可以用令一臺電腦,並輸入伺服器的IP地址。) 我得到下面的結果:

OK,我已經有了一個用Python實現的,並從socket寫起的伺服器了。

從終端,我們可以看到,瀏覽器實際上發出了兩個請求。第一個請求為 (關鍵資訊在起始行,這一個請求的主體為空):

 

我們的Python程式根據這個請求,傳送給伺服器text_content的內容。

 

瀏覽器接收到text_content之後,發現正文的html文字中有<IMG src=”text.jpg” />,知道需要獲得text.jpg檔案來補充為圖片,立即發出了第二個請求:

 

我們的Python程式分析過起始行之後,發現/test.jpg符合if條件,所以將pic_content傳送給客戶。

最後,瀏覽器根據html語言的語法,將html文字和圖畫以適當的方式顯示出來。(html可參考http://www.w3schools.com/html/default.asp)

 

探索的方向

1) 在我們上面的伺服器程式中,我們用while迴圈來讓伺服器一直工作下去。實際上,我們還可以根據我之前介紹的多執行緒的知識,將while迴圈中的內容改為多程式或者多執行緒工作。(參考Python多執行緒與同步Python多程式初步Python多程式探索)

2) 我們的伺服器程式還不完善,我們還可以讓我們的Python程式呼叫Python的其他功能,以實現更復雜的功能。比如說製作一個時間伺服器,讓伺服器向客戶返回日期和時間。你還可以使用Python自帶的資料庫,來實現一個完整的LAMP伺服器。

3) socket包是比較底層的包。Python標準庫中還有高層的包,比如SocketServer,SimpleHTTPServer,CGIHTTPServer,cgi。這些都包都是在幫助我們更容易的使用socket。如果你已經瞭解了socket,那麼這些包就很容易明白了。利用這些高層的包,你可以寫一個相當成熟的伺服器。

4) 在經歷了所有的辛苦和麻煩之後,你可能發現,框架是那麼的方便,所以決定去使用框架。或者,你已經有了參與到框架開發的熱情。

 

更多內容

TCP/IP和port參考: TCP/IP illustrated http://book.douban.com/subject/1741925/

socket參考: UNIX Network Programming http://book.douban.com/subject/1756533/

Python socket 官方文件 http://docs.python.org/2/library/socket.html

HTTP參考: HTTP, the definitive guide http://book.douban.com/subject/1440226/

相關文章