網路標準之:永遠是1.0版本的MIME

flydean發表於2022-03-11

簡介

無規矩不成方圓,無標準不成網路通訊。正是在各種網路協議和標準的基礎之上,才構建了我們現在流行的網際網路。今天給大家介紹的就是一個網路標準格式,叫做MIME,它的全稱是Multipurpose Internet Mail Extensions,翻譯過來就是多用途Internet郵件擴充套件。

那麼有小夥伴開始疑惑了,原來是一個郵件的擴充套件協議,那麼它跟我們使用的Internet網路有什麼關係呢?

不急,我們慢慢道來。

MIME詳解

在很久很久以前,計算機的一種流行的應用就是發郵件,最開始的時候,計算機世界的編碼方式就只有ASCII一種,但是隨著時間的推移和各種應用需求的激增,ASCII格式已經不能滿足我們的需求了,格式多型別的同時也照成了互相通訊之間的困難,於是一個統一的訊息格式標準產生了,這個就是MIME。

MIME可以讓郵件不僅支援ASCII,還可以支援其他的編碼方式。同時支援圖片、音訊、視訊和應用程式等多種附件。

訊息體還可以支援多個part的集合,當這樣的訊息郵件使用MIME格式編碼之後,就可以通過標準的郵件協議,比如SMTP、POP、IMAP等進行傳送了。

因為MIME是一個標準,所以只要符合這種標準的郵件都能夠被解析成功。

很快,MIME就在郵件世界被廣泛應用,但是網際網路已經發展到使用流行的HTTP協議來訪問全球資訊網的時候了,MIME中定義的各種content types很自然的也成了其他協議中使用的content標準。

這種content types是在MIME頭中定義的,應用程式接收到content type之後,會根據型別中指定的訊息型別,來採用對應的應用程式對訊息內容進行解析。

MIME頭

MIME頭很重要,是應用程式用來判斷訊息格式的首要依據。MIME頭可以包含下面的欄位。

MIME-Version

如果存在這個訊息頭,說明這個訊息是遵循的是MIME格式。它的值通常是1.0。

MIME-Version: 1.0

有細心的小夥伴可以能要問了,既然有1.0,那麼有沒有1.1或者2.0呢?

很抱歉,答案是沒有。因為根據MIME 共同建立者 Nathaniel Borenstein 的說法,雖然引入MIME版本號是為了在後續中對MIME進行修改和升級。但是因為MIME規範並沒有為未來MIME版本的升級進行良好的設計,所以不同的人可能對MIME版本升級後的處理方式都是不一樣的。從而導致在MIME廣泛應用的今天,很難對MIME規範進行升級。

所以,就使用1.0吧。

Content-Type

如果屬性HTTP協議的同學,對這個頭應該很熟悉了吧,這個頭表示的是訊息體的型別,包含了型別和子型別,比如:

Content-Type: text/plain

我們常說的MIME type就是指這個標籤。

下面是常用的MIME type:

說明字尾型別
超文字標記語言文字.htmltext/html
xml文件.xmltext/xml
XHTML文件.xhtmlapplication/xhtml+xml
普通文字.txttext/plain
RTF文字.rtfapplication/rtf
PDF文件.pdfapplication/pdf
Microsoft Word檔案.wordapplication/msword
PNG影像.pngimage/png
GIF圖形.gifimage/gif
JPEG圖形.jpeg,.jpgimage/jpeg
au聲音檔案.auaudio/basic
MIDI音樂檔案mid,.midiaudio/midi,audio/x-midi
RealAudio音樂檔案.ra, .ramaudio/x-pn-realaudio
MPEG檔案.mpg,.mpegvideo/mpeg
AVI檔案.avivideo/x-msvideo
GZIP檔案.gzapplication/x-gzip
TAR檔案.tarapplication/x-tar
任意的二進位制資料 application/octet-stream

Content-Disposition

Content-Disposition是在RFC 2183中新增的一個欄位,表示的是訊息的展示樣式。因為之前的訊息只是定義了它的訊息格式,並沒有考慮訊息是如何展示的問題,尤其是對於郵件來說。

比如郵件中插入了一個圖片,那麼這個圖片是在我們讀訊息的時候內聯展示呢?還是以附件的形式,必須要使用者下載才能看到呢?

如果是在HTTP中,響應頭欄位Content-Disposition:attachment 通常用作提示客戶端將響應正文呈現為可下載檔案。通常,當收到這樣的響應時,Web瀏覽器會提示使用者將其內容儲存為檔案,而不是將其顯示為瀏覽器視窗中的頁面。

Content-Transfer-Encoding

這個欄位是做什麼用的呢?

我們知道,隨著資料格式越來越多,傳統的ASCII已經不能支援龐大的內容表示形式,所以出現了超出ASCII範圍的內容表示形式如Unicode。

但是對於SMTP伺服器來說,能夠傳輸或者認識的編碼是有限的,如果要傳輸二進位制內容,則需要使用一定的transfer encodings方式對二進位制內容進行轉換。這就是Content-Transfer-Encoding的意義。

根據RFC和IANA的定義,有下面幾個transfer encodings方式:

NameReference
7bit[RFC2045]
8bit[RFC2045]
binary[RFC2045]
quoted-printable[RFC2045]
base64[RFC2045]

具體transfer encodings的含義,可以參考我後續的文章,這裡只做簡單的介紹。

對於普通的SMTP伺服器來說,可以支援7bit、quoted-printable和base64這三種編碼方式。

對於8BITMIME SMTP extension的SMTP伺服器來說,還支援8bit這種編碼方式。

對於支援BINARYMIME SMTP extension的SMTP伺服器來說,還支援binary這種編碼方式。

Encoded-Word

根據RFC 2822,確認訊息頭中的欄位名和值必須使用ASCII字元。如果訊息中包含非ASCII字元,則需要進行編碼。這個編碼就是encoded-word 。

編碼的格式如下:

"=?charset?encoding?encoded text?=".

charset表示的是原訊息的編碼,encoding表示的是使用的編碼方式,encoded text是編碼後的訊息。

Multipart messages

最後,介紹一下Multipart messages,我們知道一個訊息是有對應的訊息型別:Content-Type的。

如果是複雜的訊息,那麼它裡面的訊息型別可能不止一種。所以這時候就需要用到Multipart messages,也就是將訊息分為多個部分,每個部分都有一個Content-Type。

這種型別在郵件中比較常見。下面是一個Multipart messages的例子,在Content-Type中指定了一個訊息的分割標記boundary。

MIME-Version: 1.0
Content-Type: multipart/mixed; boundary=frontier

This is a message with multiple parts in MIME format.
--frontier
Content-Type: text/plain

This is the body of the message.
--frontier
Content-Type: application/octet-stream
Content-Transfer-Encoding: base64

PGh0bWw+CiAgPGhlYWQ+CiAgPC9oZWFkPgogIDxib2R5PgogICAgPHA+VGhpcyBpcyB0aGUg
Ym9keSBvZiB0aGUgbWVzc2FnZS48L3A+CiAgPC9ib2R5Pgo8L2h0bWw+Cg==
--frontier--

總結

以上就是MIME的基本介紹,在其中,我們提到了幾種transfer encodings方法,敬請期待後續文章。

本文已收錄於 http://www.flydean.com/12-mime/

最通俗的解讀,最深刻的乾貨,最簡潔的教程,眾多你不知道的小技巧等你來發現!

歡迎關注我的公眾號:「程式那些事」,懂技術,更懂你!

相關文章