來自公眾號:Gopher指北
URL中不能顯示地包含空格這已經是一個共識,而空格以何種形式存在,在不同的標準中又不完全一致,以致於不同的語言也有了不同的實現。
rfc2396
中明確表示空格應該被編碼為%20
。
而W3C的標準中卻又說空格可以被替換為+
或者%20
。
老許當場懵逼,空格被替換為+
,那+
本身只能被編碼。既然如此,為什麼不直接對空格進行編碼呢。當然這只是老許心中的疑惑,以前的背景我們已經無法追溯,已成的事實我們也無法改變。但,空格到底是被替換為+
還是20%
,+
是否需要被編碼都是現在的我們需要直面的問題。
Go常用的三種URL編碼方式
作為Gopher最先關注的自然是Go語言本身的實現,因此我們首先了解一下Go中常用的三種URL編碼方式的異同。
url.QueryEscape
fmt.Println(url.QueryEscape(" +Gopher指北"))
// 輸出:+%2BGopher%E6%8C%87%E5%8C%97
使用url.QueryEscape
編碼時,空格被編碼為+
,而+
本身被編碼為%2B
。
url.PathEscape
fmt.Println(url.PathEscape(" +Gopher指北"))
// 輸出:%20+Gopher%E6%8C%87%E5%8C%97
使用url.PathEscape
編碼時,空格被編碼為20%
, 而+
則未被編碼。
url.Values
var query = url.Values{}
query.Set("hygz", " +Gopher指北")
fmt.Println(query.Encode())
// 輸出:hygz=+%2BGopher%E6%8C%87%E5%8C%97
使用(Values).Encode
方法編碼時,空格被編碼為+
,而+
本身被編碼為%2B
,進一步檢視(Values).Encode
方法的原始碼知其內部仍舊呼叫url.QueryEscape
函式。而(Values).Encode
方法和url.QueryEscape
的區別在於前者僅編碼query中的key和value,後者會對=
、&
均進行編碼。
對我們開發者而言,這三種編碼方式到底應該使用哪一種,請繼續閱讀後文相信你可以在後面的文章中找到答案。
不同語言中的實現
既然空格和+
在Go中的URL編碼方式有不同的實現,那在其他語言中是否也存在這樣的情況呢,下面以PHP和JS為例。
PHP中的URL編碼
urlencode
echo urlencode(' +Gopher指北');
// 輸出:+%2BGopher%E6%8C%87%E5%8C%97
rawurlencode
echo rawurlencode(" +Gopher指北");
// 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
PHP的urlencode
和Go的url.QueryEscape
函式效果一致,而rawurlencode
則將空格和+
均進行編碼。
JS中的URL編碼
encodeURI
encodeURI(' +Gopher指北')
// 輸出:%20+Gopher%E6%8C%87%E5%8C%97
encodeURIComponent
encodeURIComponent(' +Gopher指北')
// 輸出:%20%2BGopher%E6%8C%87%E5%8C%97
JS的encodeURI
和Go的url.PathEscape
函式效果一致,而encodeURIComponent
則將空格和+
均進行編碼。
我們應該怎麼做
更推薦使用url.PathEscape函式編碼
在前文中已經總結了Go
、PHP
和JS
對 +Gopher指北
的編碼操作,下面總結一下其對應的解碼操作是否可行的二維表。
編碼/解碼 | url.QueryUnescape | url.PathUnescape | urldecode | rawurldecode | decodeURI | decodeURIComponent |
---|---|---|---|---|---|---|
url.QueryEscape | Y | N | Y | N | N | N |
url.PathEscape | N | Y | N | YY | Y | YY |
urlencode | Y | N | Y | N | N | N |
rawurlencode | Y | YY | Y | Y | N | Y |
encodeURI | N | Y | N | Y | Y | Y |
encodeURIComponent | Y | YY | Y | Y | N | Y |
上表中的YY
和Y
同含義,老許僅以YY
表示在Go中推薦使用url.PathEscape
進行編碼,同時在PHP和JS中分別推薦使用rawurldecode
和decodeURIComponent
進行解碼。
在實際的開發過程中,Gopher一定會存在需要解碼的場景,此時就需要和URL編碼方進行溝通以得到合適的方式解碼。
對值進行編碼
那有沒有通用的不需要URL編解碼的方式呢?毫無疑問是有的!以base32
編碼為例,其編碼字符集為A-Z和數字2-7
,此時對值進行base32編碼後就無需url編碼了。
最後,衷心希望本文能夠對各位讀者有一定的幫助。
本文使用環境分別為PHP 7.3.29
、go 1.16.6
和js Chrome94.0.4606.71的Console
參考