URL中的空格、加號究竟應該使用何種方式編碼

Gopher指北發表於2021-11-06

來自公眾號:Gopher指北

URL中不能顯示地包含空格這已經是一個共識,而空格以何種形式存在,在不同的標準中又不完全一致,以致於不同的語言也有了不同的實現。

rfc2396中明確表示空格應該被編碼為%20

而W3C的標準中卻又說空格可以被替換為+或者%20

老許當場懵逼,空格被替換為+,那+本身只能被編碼。既然如此,為什麼不直接對空格進行編碼呢。當然這只是老許心中的疑惑,以前的背景我們已經無法追溯,已成的事實我們也無法改變。但,空格到底是被替換為+還是20%+是否需要被編碼都是現在的我們需要直面的問題。

Go常用的三種URL編碼方式

作為Gopher最先關注的自然是Go語言本身的實現,因此我們首先了解一下Go中常用的三種URL編碼方式的異同。

url.QueryEscape

fmt.Println(url.QueryEscape(" +Gopher指北"))
// 輸出:+%2BGopher%E6%8C%87%E5%8C%97

使用url.QueryEscape編碼時,空格被編碼為+,而+本身被編碼為%2B

url.PathEscape

fmt.Println(url.PathEscape(" +Gopher指北"))
// 輸出:%20+Gopher%E6%8C%87%E5%8C%97

使用url.PathEscape編碼時,空格被編碼為20%, 而+則未被編碼。

url.Values

var query = url.Values{}
query.Set("hygz", " +Gopher指北")
fmt.Println(query.Encode())
// 輸出:hygz=+%2BGopher%E6%8C%87%E5%8C%97

使用(Values).Encode方法編碼時,空格被編碼為+,而+本身被編碼為%2B,進一步檢視(Values).Encode方法的原始碼知其內部仍舊呼叫url.QueryEscape函式。而(Values).Encode方法和url.QueryEscape的區別在於前者僅編碼query中的key和value,後者會對=&均進行編碼。

對我們開發者而言,這三種編碼方式到底應該使用哪一種,請繼續閱讀後文相信你可以在後面的文章中找到答案。

不同語言中的實現

既然空格和+在Go中的URL編碼方式有不同的實現,那在其他語言中是否也存在這樣的情況呢,下面以PHP和JS為例。

PHP中的URL編碼

urlencode

echo urlencode(' +Gopher指北');
// 輸出:+%2BGopher%E6%8C%87%E5%8C%97

rawurlencode

echo rawurlencode(" +Gopher指北");
// 輸出:%20%2BGopher%E6%8C%87%E5%8C%97

PHP的urlencode和Go的url.QueryEscape函式效果一致,而rawurlencode則將空格和+均進行編碼。

JS中的URL編碼

encodeURI

encodeURI(' +Gopher指北')
// 輸出:%20+Gopher%E6%8C%87%E5%8C%97

encodeURIComponent

encodeURIComponent(' +Gopher指北')
// 輸出:%20%2BGopher%E6%8C%87%E5%8C%97

JS的encodeURI和Go的url.PathEscape函式效果一致,而encodeURIComponent則將空格和+均進行編碼。

我們應該怎麼做

更推薦使用url.PathEscape函式編碼

在前文中已經總結了GoPHPJS +Gopher指北的編碼操作,下面總結一下其對應的解碼操作是否可行的二維表。

編碼/解碼url.QueryUnescapeurl.PathUnescapeurldecoderawurldecodedecodeURIdecodeURIComponent
url.QueryEscapeYNYNNN
url.PathEscapeNYNYYYYY
urlencodeYNYNNN
rawurlencodeYYYYYNY
encodeURINYNYYY
encodeURIComponentYYYYYNY

上表中的YYY同含義,老許僅以YY表示在Go中推薦使用url.PathEscape進行編碼,同時在PHP和JS中分別推薦使用rawurldecodedecodeURIComponent進行解碼。

在實際的開發過程中,Gopher一定會存在需要解碼的場景,此時就需要和URL編碼方進行溝通以得到合適的方式解碼。

對值進行編碼

那有沒有通用的不需要URL編解碼的方式呢?毫無疑問是有的!以base32編碼為例,其編碼字符集為A-Z和數字2-7,此時對值進行base32編碼後就無需url編碼了。

最後,衷心希望本文能夠對各位讀者有一定的幫助。

本文使用環境分別為PHP 7.3.29go 1.16.6js Chrome94.0.4606.71的Console

參考

相關文章