短連結URL系統是怎麼設計的？

知乎發表於2015-05-12

原文網址 : http://www.codeceo.com/article/short-url-system-design.html?replytocom=4398

最爛的回答

實現一個演算法，將長地址轉成短地址。實現長和短一一對應。然後再實現它的逆運算，將短地址還能換算回長地址。

這個回答看起來挺完美的，然後候選人也會說現在時間比較短，如果給我時間我去找這個演算法就解決問題了。但是稍微有點計算機或者資訊理論常識的人就能發現，這個演算法就跟永動機一樣，是永遠不可能找到的。即使我們定義短地址是100位。那麼它的變化是62的100次方。62=10數字+26大寫字母+26小寫字母。無論這個數多麼大，他也不可能大過世界上可能存在的長地址。所以實現一一對應，本身就是不可能的。

再換一個說法來反駁，如果真有這麼一個演算法和逆運算，那麼基本上現在的壓縮軟體都可以歇菜了，而世界上所有的資訊，都可以壓縮到100個字元。這～可能嗎。

短 URL 系統是怎麼設計的？

另一個很爛的回答

和上面一樣，也找一個演算法，把長地址轉成短地址，但是不存在逆運算。我們需要把短對長的關係存到DB中，在通過短查長時，需要查DB。

怎麼說呢，沒有改變本質，如果真有這麼一個演算法，那必然是會出現碰撞的，也就是多個長地址轉成了同一個短地址。因為我們無法預知會輸入什麼樣的長地址到這個系統中，所以不可能實現這樣一個絕對不碰撞的hash函式。

比較爛的回答

那我們用一個hash演算法，我承認它會碰撞，碰撞後我再在後面加1，2，3不就行了。

ok，這樣的話，當通過這個hash演算法算出來之後，可能我們會需要做btree式的大於小於或者like查詢到能知道現在應該在後面加1，2，或3，這個也可能由於輸入的長地址集的不確定性。導致生成短地址時間的不確定性。同樣爛的回答還有隨機生成一個短地址，去查詢是否用過，用過就再隨機，如此往復，直到隨機到一個沒用過的短地址。

正確的原理

上面是幾種典型的錯誤回答，下面我們們直接說正確的原理。

正確的原理就是通過發號策略，給每一個過來的長地址，發一個號即可，小型系統直接用mysql的自增索引就搞定了。如果是大型應用，可以考慮各種分散式key-value系統做發號器。不停的自增就行了。第一個使用這個服務的人得到的短地址是 http://xx.xx/0 第二個是 http://xx.xx/1 第11個是 http://xx.xx/a 第依次往後，相當於實現了一個62進位制的自增欄位即可。

幾個子問題

1. 62進位制如何用資料庫或者KV儲存來做？

其實我們並不需要在儲存中用62進位制，用10進位制就好了。比如第10000個長地址，我們給它的短地址對應的編號是9999，我們通過儲存自增拿到9999後，再做一個10進位制到62進位制的轉換，轉成62進位制數即可。這個10～62進位制轉換，你完全都可以自己實現。

2. 如何保證同一個長地址，每次轉出來都是一樣的短地址

上面的發號原理中，是不判斷長地址是否已經轉過的。也就是說用拿著百度首頁地址來轉，我給一個http://xx.xx/abc 過一段時間你再來轉，我還會給你一個 http://xx.xx/xyz。這看起來挺不好的，但是不好在哪裡呢？不好在不是一一對應，而一長對多短。這與我們完美主義的基因不符合，那麼除此以外還有什麼不對的地方？

有人說它浪費空間，這是對的。同一個長地址，產生多條短地址記錄，這明顯是浪費空間的。那麼我們如何避免空間浪費，有人非常迅速的回答我，建立一個長對短的KV儲存即可。嗯，聽起來有理，但是。。。這個KV儲存本身就是浪費大量空間。所以我們是在用空間換空間，而且貌似是在用大空間換小空間。真的划算嗎？這個問題要考慮一下。當然，也不是沒有辦法解決，我們做不到真正的一一對應，那麼打個折扣是不是可以搞定？

這個問題的答案太多種，各有各招。這個方案最簡單的是建立一個長對短的hashtable，這樣相當於用空間來換空間，同時換取一個設計上的優雅（真正的一對一）。實際情況是有很多價效比高的打折方案可以用，這個方案設計因人而異了。那我就說一下我的方案吧。

我的方案是：用key-value儲存，儲存“最近”生成的長對短的一個對應關係。注意是“最近”，也就是說，我並不儲存全量的長對短的關係，而只儲存最近的。比如採用一小時過期的機制來實現LRU淘汰。

這樣的話，長轉短的流程變成這樣：

在這個“最近”表中檢視一下，看長地址有沒有對應的短地址
- 有就直接返回，並且將這個key-value對的過期時間再延長成一小時
- 如果沒有，就通過發號器生成一個短地址，並且將這個“最近”表中，過期時間為1小時

所以當一個地址被頻繁使用，那麼它會一直在這個key-value表中，總能返回當初生成那個短地址，不會出現重複的問題。如果它使用並不頻繁，那麼長對短的key會過期，LRU機制自動就會淘汰掉它。

當然，這不能保證100%的同一個長地址一定能轉出同一個短地址，比如你拿一個生僻的url，每間隔1小時來轉一次，你會得到不同的短地址。但是這真的有關係嗎？

3. 如何保證發號器的大併發高可用

上面設計看起來有一個單點，那就是發號器。如果做成分散式的，那麼多節點要保持同步加1，多點同時寫入，這個嘛，以CAP理論看，是不可能真正做到的。其實這個問題的解決非常簡單，我們可以退一步考慮，我們是否可以實現兩個發號器，一個發單號，一個發雙號，這樣就變單點為多點了？依次類推，我們可以實現1000個邏輯發號器，分別髮尾號為0到999的號。每發一個號，每個發號器加1000，而不是加1。這些發號器獨立工作，互不干擾即可。而且在實現上，也可以先是邏輯的，真的壓力變大了，再拆分成獨立的物理機器單元。1000個節點，估計對人類來說應該夠用了。如果你真的還想更多，理論上也是可以的。

4. 具體儲存如何選擇

這個問題就不展開說了，各有各道，主要考察一下對儲存的理解。對快取原理的理解，和對市面上DB、Cache系統可用性，併發能力，一致性等方面的理解。

5. 跳轉用301還是302

這也是一個有意思的話題。首先當然考察一個候選人對301和302的理解。瀏覽器快取機制的理解。然後是考察他的業務經驗。301是永久重定向，302是臨時重定向。短地址一經生成就不會變化，所以用301是符合http語義的。同時對伺服器壓力也會有一定減少。

但是如果使用了301，我們就無法統計到短地址被點選的次數了。而這個點選次數是一個非常有意思的大資料分析資料來源。能夠分析出的東西非常非常多。所以選擇302雖然會增加伺服器壓力，但是我想是一個更好的選擇。

大概就是這樣。

短連結系統的設計與實現
2022-06-16
URL短網址系統的演算法設計及實踐
2020-02-19
演算法
阿里的秒殺系統是怎麼設計的？
2020-08-18
阿里
「小碼短連結」好用、好看、有統計報表的短連結工具
2019-12-02
面試官說：你來設計一個短連結生成系統吧
2021-12-04
面試
最新騰訊短連結url生成API介面
2020-06-04
API
百度的評論系統是怎麼設計的？
2022-06-28
最新最穩定的騰訊短網址（URL短連結）API介面分享
2020-02-19
API
騰訊短連結url生成介面/騰訊短網址線上生成/新浪微博短連結生成器的分享
2020-02-28
實現長連結轉化成短連結(新浪T.CN短連結以及騰訊URL.cn短網址)API介面程式碼分享
2020-02-10
API
如何設計短網址系統?
2021-09-09
支付對賬系統怎麼設計？
2019-01-05
大家是怎麼程式設計的
2020-06-18
程式設計
微信域名連結防封短連結是如何生成的，微信域名防封短連結程式碼實現示例
2020-02-18
世界上最好的語言搭建短連結及統計功能
2021-09-09
怎麼設計一個秒殺系統
2020-10-16
短影片app開發，短影片系統發展的收益方式是什麼？
2020-12-22
APP
PDM系統的結構設計
2018-11-04
結算系統設計
2024-10-31
W外鏈平臺怎麼樣？短連結穩定不？
2024-08-06
Python程式設計：URL網址連結中的中文編碼與解碼
2018-05-11
Python程式設計
答面試官問：如何設計短url服務
2020-09-09
面試
短連結生成
2018-04-24
在新視窗開啟連結的方法是什麼？那怎麼設定全站連結都在新視窗開啟？
2024-11-24
什麼是WordPress中的SEO友好URL結構
2020-12-29
短連結到底有什麼用？
2019-11-23
短影片直播系統經久不衰的原因是什麼？
2021-04-16
系統設計實踐(01) - 短鏈服務
2021-09-13
教你怎麼通過M1.FIT工具生成永久短連結？
2021-12-08
類似優酷 url 的生成是怎麼生成的？
2018-12-23
通用雙向連結串列的設計（參考Linux系統中的實現）
2018-03-30
Linux
新浪短連結生成新浪短連結轉化器推薦
2020-04-30
Google 是怎麼設計遊戲手柄的？
2019-10-12
Go遊戲
[場景設計]短連線服務
2024-09-09
PostgreSQL pgbackrest 怎麼設計帶遠端控制端的PG備份系統系統
2023-12-15
SQLREST
如何使用短連結工具在微信公眾號中埋點統計連結點選量
2019-12-09
如何批次生成短連結,短連結的使用真的有很多好處嗎?
2020-06-08
程式設計師喜歡Linux系統的原因是什麼？
2023-01-14
程式設計師Linux
如何把一個長連結轉短連結短連結轉化器該如何使用
2020-04-20