【基礎進階】URL詳解與URL編碼

發表於2015-12-22

作為前端，每日與 URL 打交道是必不可少的。但是也許每天只是單純的用，對其只是一知半解，隨著工作的展開，我發現在日常抓包除錯，介面呼叫，瀏覽器相容等許多方面，不深入去理解URL與URL編碼則會踩到很多坑。故寫下此篇文章，詳解一下 URL 。

URL 與 URI

很多人會混淆這兩個名詞。

URL：(Uniform/Universal Resource Locator 的縮寫，統一資源定位符)。

URI：(Uniform Resource Identifier 的縮寫，統一資源識別符號)。

關係：

URI 屬於 URL 更低層次的抽象，一種字串文字標準。

就是說，URI 屬於父類，而 URL 屬於 URI 的子類。URL 是 URI 的一個子集。

二者的區別在於，URI 表示請求伺服器的路徑，定義這麼一個資源。而 URL 同時說明要如何訪問這個資源（http://）。

埠與 URL標準格式

何為埠？埠(Port)，相當於一種資料的傳輸通道。用於接受某些資料，然後傳輸給相應的服務，而電腦將這些資料處理後，再將相應的回覆通過開啟的埠傳給對方。

埠的作用：因為 IP 地址與網路服務的關係是一對多的關係。所以實際上因特網上是通過 IP 地址加上埠號來區分不同的服務的。

埠是通過埠號來標記的，埠號只有整數，範圍是從0 到65535。

URL 標準格式。

通常而言，我們所熟悉的 URL 的常見定義格式為：

scheme://host[:port#]/path/…/[;url-params][?query-string][#anchor]

scheme //有我們很熟悉的http、https、ftp以及著名的ed2k，迅雷的thunder等。
host   //HTTP伺服器的IP地址或者域名
port#  //HTTP伺服器的預設埠是80，這種情況下埠號可以省略。如果使用了別的埠，必須指明，例如tomcat的預設埠是8080 http://localhost:8080/
path   //訪問資源的路徑
url-params  //所帶引數
query-string    //傳送給http伺服器的資料
anchor //錨點定位

scheme //有我們很熟悉的http、https、ftp以及著名的ed2k，迅雷的thunder等。

host //HTTP伺服器的IP地址或者域名

port# //HTTP伺服器的預設埠是80，這種情況下埠號可以省略。如果使用了別的埠，必須指明，例如tomcat的預設埠是8080 http://localhost:8080/

path //訪問資源的路徑

url-params //所帶引數

query-string //傳送給http伺服器的資料

anchor //錨點定位

利用 <a> 標籤自動解析 url

開發當中一個很常見的場景是，需要從 URL 中提取一些需要的元素，譬如 host 、請求引數等等。

通常的做法是寫正則去匹配相應的欄位，當然，這裡要安利下述這種方法，來自 James 的 blog，原理是動態建立一個 a 標籤，利用瀏覽器的一些原生方法及一些正則（為了健壯性正則還是要的），完美解析 URL ，獲取我們想要的任意一個部分。

程式碼如下：

// This function creates a new anchor element and uses location
// properties (inherent) to get the desired URL data. Some String
// operations are used (to normalize results across browsers).

function parseURL(url) {
    var a =  document.createElement('a');
    a.href = url;
    return {
        source: url,
        protocol: a.protocol.replace(':',''),
        host: a.hostname,
        port: a.port,
        query: a.search,
        params: (function(){
            var ret = {},
                seg = a.search.replace(/^\?/,'').split('&'),
                len = seg.length, i = 0, s;
            for (;i<len;i++) {
                if (!seg[i]) { continue; }
                s = seg[i].split('=');
                ret[s[0]] = s[1];
            }
            return ret;
        })(),
        file: (a.pathname.match(/([^/?#]+)$/i) || [,''])[1],
        hash: a.hash.replace('#',''),
        path: a.pathname.replace(/^([^/])/,'/$1'),
        relative: (a.href.match(/tps?:\/[^/]+(.+)/) || [,''])[1],
        segments: a.pathname.replace(/^\//,'').split('/')
    };
}

// This function creates a new anchor element and uses location

// properties (inherent) to get the desired URL data. Some String

// operations are used (to normalize results across browsers).

function parseURL(url) {

var a = document.createElement('a');

a.href = url;

return {

source: url,

protocol: a.protocol.replace(':',''),

host: a.hostname,

port: a.port,

query: a.search,

params: (function(){

var ret = {},

seg = a.search.replace(/^\?/,'').split('&'),

len = seg.length, i = 0, s;

for (;i<len;i++) {

if (!seg[i]) { continue; }

s = seg[i].split('=');

ret[s[0]] = s[1];

}

return ret;

})(),

file: (a.pathname.match(/([^/?#]+)$/i) || [,''])[1],

hash: a.hash.replace('#',''),

path: a.pathname.replace(/^([^/])/,'/$1'),

relative: (a.href.match(/tps?:\/[^/]+(.+)/) || [,''])[1],

segments: a.pathname.replace(/^\//,'').split('/')

};

}

Usage 使用方法：

var myURL = parseURL('http://abc.com:8080/dir/index.html?id=255&m=hello#top');

myURL.file;     // = 'index.html'
myURL.hash;     // = 'top'
myURL.host;     // = 'abc.com'
myURL.query;    // = '?id=255&m=hello'
myURL.params;   // = Object = { id: 255, m: hello }
myURL.path;     // = '/dir/index.html'
myURL.segments; // = Array = ['dir', 'index.html']
myURL.port;     // = '8080'
myURL.protocol; // = 'http'
myURL.source;   // = 'http://abc.com:8080/dir/index.html?id=255&m=hello#top'

var myURL = parseURL('http://abc.com:8080/dir/index.html?id=255&m=hello#top');

myURL.file; // = 'index.html'

myURL.hash; // = 'top'

myURL.host; // = 'abc.com'

myURL.query; // = '?id=255&m=hello'

myURL.params; // = Object = { id: 255, m: hello }

myURL.path; // = '/dir/index.html'

myURL.segments; // = Array = ['dir', 'index.html']

myURL.port; // = '8080'

myURL.protocol; // = 'http'

myURL.source; // = 'http://abc.com:8080/dir/index.html?id=255&m=hello#top'

利用上述方法，即可解析得到 URL 的任意部分。

URL 編碼

為什麼要進行URL編碼？通常如果一樣東西需要編碼，說明這樣東西並不適合直接進行傳輸。

1、會引起歧義：例如 URL 引數字串中使用 key=value 這樣的鍵值對形式來傳參，鍵值對之間以 & 符號分隔，如 ?postid=5038412&t=1450591802326，伺服器會根據引數串的 & 和 = 對引數進行解析，如果 value 字串中包含了 = 或者 & ，如寶潔公司的簡稱為P&G，假設需要當做引數去傳遞，那麼可能URL所帶引數可能會是這樣 ?name=P&G&t=1450591802326，因為引數中多了一個&勢必會造成接收 URL 的伺服器解析錯誤，因此必須將引起歧義的 & 和 = 符號進行轉義，也就是對其進行編碼。

2、非法字元：又如，URL 的編碼格式採用的是 ASCII 碼，而不是 Unicode，這也就是說你不能在 URL 中包含任何非 ASCII 字元，例如中文。否則如果客戶端瀏覽器和服務端瀏覽器支援的字符集不同的情況下，中文可能會造成問題。

那麼如何編碼？如下：

escape 、 encodeURI 、encodeURIComponent

escape()

首先想宣告的是，W3C把這個函式廢棄了，身為一名前端如果還用這個函式是要打臉的。

escape只是對字串進行編碼（而其餘兩種是對URL進行編碼），與URL編碼無關。編碼之後的效果是以 %XX 或者 %uXXXX 這種形式呈現的。它不會對 ASCII字元、數字以及 @ * / + 進行編碼。

根據 MDN 的說明，escape 應當換用為 encodeURI 或 encodeURIComponent；unescape 應當換用為 decodeURI 或 decodeURIComponent。escape 應該避免使用。舉例如下：

encodeURI('https://www.baidu.com/ a b c')
// "https://www.baidu.com/%20a%20b%20c"
encodeURIComponent('https://www.baidu.com/ a b c')
// "https%3A%2F%2Fwww.baidu.com%2F%20a%20b%20c"

//而 escape 會編碼成下面這樣，eocode 了冒號卻沒 encode 斜槓，十分怪異，故廢棄之
escape('https://www.baidu.com/ a b c')
// "https%3A//www.baidu.com/%20a%20b%20c"

encodeURI('https://www.baidu.com/ a b c')

// "https://www.baidu.com/%20a%20b%20c"

encodeURIComponent('https://www.baidu.com/ a b c')

// "https%3A%2F%2Fwww.baidu.com%2F%20a%20b%20c"

//而 escape 會編碼成下面這樣，eocode 了冒號卻沒 encode 斜槓，十分怪異，故廢棄之

escape('https://www.baidu.com/ a b c')

// "https%3A//www.baidu.com/%20a%20b%20c"

encodeURI()

encodeURI() 是 Javascript 中真正用來對 URL 編碼的函式。它著眼於對整個URL進行編碼。

encodeURI("http://www.cnblogs.com/season-huang/some other thing");
//"http://www.cnblogs.com/season-huang/some%20other%20thing";

1 2	encodeURI("http://www.cnblogs.com/season-huang/some other thing"); //"http://www.cnblogs.com/season-huang/some%20other%20thing";

編碼後變為上述結果，可以看到空格被編碼成了%20，而斜槓 / ，冒號 : 並沒有被編碼。

是的，它用於對整個 URL 直接編碼，不會對 ASCII字母、數字、 ~ ! @ # $ & * ( ) = : / , ; ? + ‘ 進行編碼。

encodeURI("~!@#$&*()=:/,;?+'")
// ~!@#$&*()=:/,;?+'

1 2	encodeURI("~!@#$&()=:/,;?+'") // ~!@#$&()=:/,;?+'

encodeURIComponent()

嘿，有的時候，我們的 URL 長這樣子，請求引數中帶了另一個 URL ：

var URL = "http://www.a.com?foo=http://www.b.com?t=123&s=456";

1	var URL = "http://www.a.com?foo=http://www.b.com?t=123&s=456";

直接對它進行 encodeURI 顯然是不行的。因為 encodeURI 不會對冒號 : 及斜槓 / 進行轉義，那麼就會出現上述所說的伺服器接受到之後解析會有歧義。

encodeURI(URL)
// "http://www.a.com?foo=http://www.b.com?t=123&b=456"

1 2	encodeURI(URL) // "http://www.a.com?foo=http://www.b.com?t=123&b=456"

這個時候，就該用到 encodeURIComponent() 。它的作用是對 URL 中的引數進行編碼，記住是對引數，而不是對整個 URL 進行編碼。

因為它僅僅不對 ASCII字母、數字 ~ ! * ( ) ‘ 進行編碼。

錯誤的用法：

var URL = "http://www.a.com?foo=http://www.b.com?t=123&s=456";
encodeURIComponent(URL);
// "http%3A%2F%2Fwww.a.com%3Ffoo%3Dhttp%3A%2F%2Fwww.b.com%3Ft%3D123%26s%3D456"
// 錯誤的用法，看到第一個 http 的冒號及斜槓也被 encode 了

var URL = "http://www.a.com?foo=http://www.b.com?t=123&s=456";

encodeURIComponent(URL);

// "http%3A%2F%2Fwww.a.com%3Ffoo%3Dhttp%3A%2F%2Fwww.b.com%3Ft%3D123%26s%3D456"

// 錯誤的用法，看到第一個 http 的冒號及斜槓也被 encode 了

正確的用法：encodeURIComponent() 著眼於對單個的引數進行編碼：

var param = "http://www.b.com?t=123&s=456"; // 要被編碼的引數
URL = "http://www.a.com?foo="+encodeURIComponent(param);
//"http://www.a.com?foo=http%3A%2F%2Fwww.b.com%3Ft%3D123%26s%3D456"

var param = "http://www.b.com?t=123&s=456"; // 要被編碼的引數

URL = "http://www.a.com?foo="+encodeURIComponent(param);

//"http://www.a.com?foo=http%3A%2F%2Fwww.b.com%3Ft%3D123%26s%3D456"

利用上述的使用<a>標籤解析 URL 以及根據業務場景配合 encodeURI() 與 encodeURIComponent() 便能夠很好的處理 URL 的編碼問題。

應用場景最常見的一個是手工拼接 URL 的時候，對每對 key-value 用 encodeURIComponent 進行轉義，再進行傳輸。

URL編碼與解碼原理
2018-08-22
Javascript編碼解碼URL
2019-10-24
JavaScript
js中對URL進行轉碼與解碼
2018-09-13
JS
ptyon 特殊處理 url 編碼與解碼，字元編碼轉化 unicode
2020-05-19
字元Unicode
基礎篇-http協議《http 簡介、url詳解、request》
2021-01-18
HTTP協議
URL編碼轉換
2018-08-24
解決 requests 庫 URL 編碼問題
2023-11-20
JavaScript對url地址編碼
2018-03-16
JavaScript
前端補充：url編碼
2024-04-09
前端
JS、C#中URL編碼解碼問題
2024-08-19
JSC#
URL編碼：原理、應用與安全性
2024-03-29
音訊編碼基礎詳解
2024-07-28
音訊
Django基礎之二（URL路由）
2018-11-07
Django路由
Python程式設計：URL網址連結中的中文編碼與解碼
2018-05-11
Python程式設計
Python基礎之七：編碼詳解
2020-10-23
Python
前端基礎迴歸-URI和URL
2022-01-26
前端
2019 JavaScript面試題詳解（基礎+進階）
2019-04-28
JavaScript面試題
Django web框架-----url path name詳解
2019-04-23
DjangoWeb框架
攻防世界 web高手進階區 10分題 url
2020-10-19
Web
Nginx URL重寫規則配置詳解
2019-03-18
Nginx
網頁地址編碼解碼（網頁地址明文密文轉換）url編碼解碼 Python3
2018-08-27
網頁Python
HTTP基礎系列之：一文搞懂URL
2021-10-14
HTTP
網址URL中特殊字元轉義編碼
2024-06-13
字元
詳情頁 url 規則
2019-04-29
Node.js學習之道-http+url基礎
2019-04-15
Node.jsHTTP
Laravel Url 使用指南 4-1 基礎篇
2020-01-08
Laravel
js解決url中文亂碼問題
2024-06-05
JS
url編碼和解碼分析URLEncoder.encode和URLDecoder.decode
2024-04-21
Js 和Url預設位址列編碼等處理
2019-05-11
JS
網址（URL）的詳細解析
2020-11-20
url
2024-11-07
URL、URI與URN 區別
2019-03-25
解決Url帶中文引數亂碼問題
2024-05-26
URL地址中的中文亂碼怎麼解決？
2019-11-13
基於驗證碼URL負載請求形成DDos
2024-11-17
負載
URL toJSON()
2020-04-07
JSON
Django --URL
2020-04-04
Django
Python的基礎進階
2020-10-06
Python
HTML URL 編碼無極3dail參考641480手冊
2021-04-11
HTML3DAI

【基礎進階】URL詳解與URL編碼

相關文章