你剛才在淘寶上買了一件東西一篇有意思的技術普及貼

spectre2發表於2013-12-12

你發現快要過年了，於是想給你的女朋友買一件毛衣，你開啟了www.taobao.com。這時你的瀏覽器首先查詢DNS伺服器，將www.taobao.com轉換成ip地址。不過首先你會發現，你在不同的地區或者不同的網路（電信、聯通、移動）的情況下，轉換後的ip地址很可能是不一樣的，這首先涉及到負載均衡的第一步，通過DNS解析域名時將你的訪問分配到不同的入口，同時儘可能保證你所訪問的入口是所有入口中可能較快的一個(這和後文的CDN不一樣)。

你通過這個入口成功的訪問了www.taobao.com的實際的入口ip地址。這時你產生了一個PV，即Page View，頁面訪問。每日每個網站的總PV量是形容一個網站規模的重要指標。淘寶網全網在平日(非促銷期間)的PV大概是16-25億之間。同時作為一個獨立的使用者，你這次訪問淘寶網的所有頁面，均算作一個UV（Unique Visitor使用者訪問）。最近臭名昭著的12306.cn的日PV量最高峰在10億左右，而UV量卻遠小於淘寶網十餘倍，這其中的原因我相信大家都會知道。

因為同一時刻訪問www.taobao.com的人數過於巨大，所以即便是生成淘寶首頁頁面的伺服器，也不可能僅有一臺。僅用於生成www.taobao.com首頁的伺服器就可能有成百上千臺，那麼你的一次訪問時生成頁面給你看的任務便會被分配給其中一臺伺服器完成。這個過程要保證公正、公平、平均(暨這成百上千臺伺服器每臺負擔的使用者數要差不多)，這一很複雜的過程是由幾個系統配合完成，其中最關鍵的便是LVS，Linux Virtual Server，世界上最流行的負載均衡系統之一，正是由目前在淘寶網供職的章文嵩博士開發的。

經過一系列複雜的邏輯運算和資料處理，用於這次給你看的淘寶網首頁的HTML內容便生成成功了。對web前端稍微有點常識的童鞋都應該知道，下一步瀏覽器會去載入頁面中用到的css、js、圖片等樣式、指令碼和資原始檔。但是可能相對較少的同學才會知道，你的瀏覽器在同一個域名下併發載入的資源數量是有限制的，例如ie6-7是兩個，ie8是6個，chrome各版本不大一樣，一般是4-6個。我剛剛看了一下，我訪問淘寶網首頁需要載入126個資源，那麼如此小的併發連線數自然會載入很久。所以前端開發人員往往會將上述這些資原始檔分佈在好多個域名下，變相的繞過瀏覽器的這個限制，同時也為下文的CDN工作做準備。

據不可靠訊息，在雙十一當天高峰，淘寶的訪問流量最巔峰達到871GB/S。這個數字意味著需要178萬個4mb頻寬的家庭寬頻才能負擔的起，也完全有能力拖垮一箇中小城市的全部網際網路頻寬。那麼顯然，這些訪問流量不可能集中在一起。並且大家都知道，不同地區不同網路(電信、聯通等)之間互訪會非常緩慢，但是你卻發現很少發現淘寶網訪問緩慢。這便是CDN，Content Delivery Network，即內容分發網路的作用。淘寶在全國各地建立了數十上百個CDN節點，利用一些手段保證你訪問的(這裡主要指js、css、圖片等)地方是離你最近的CDN節點，這樣便保證了大流量分散已經在各地訪問的加速。
這便出現了一個問題，那就是假若一個賣家釋出了一個新的寶貝，上傳了幾張新的寶貝圖片，那麼淘寶網如何保證全國各地的CDN節點中都會同步的存在這幾張圖片供使用者使用呢？這裡邊就涉及到了大量的內容分發與同步的相關技術。淘寶開發了分散式檔案系統TFS(taobao file system)來處理這類問題。

好了，這時你終於載入完了淘寶首頁，那麼你習慣性的在首頁搜尋框中輸入了'毛衣'二字並敲回車，這時你又產生了一個PV，然後，淘寶網的主搜尋系統便開始為你服務了。它首先對你輸入的內容基於一個分詞庫進行的分詞操作。眾所周知，英文是以詞為單位的，詞和詞之間是靠空格隔開，而中文是以字為單位，句子中所有的字連起來才能描述一個意思。例如，英文句子I am a student，用中文則為：“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞，但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。把中文的漢字序列切分成有意義的詞，就是中文分詞，有些人也稱為切詞。我是一個學生，分詞的結果是：我是一個學生。

進行分詞之後，還需要根據你輸入的搜尋詞進行你的購物意圖分析。使用者進行搜尋時常常有如下幾類意圖：（1）瀏覽型：沒有明確的購物物件和意圖，邊看邊買，使用者比較隨意和感性。Query例如：”2010年10大香水排行”，”2010年流行毛衣”， “zippo有多少種類？”；（2）查詢型：有一定的購物意圖，體現在對屬性的要求上。Query例如：”適合老人用的手機”，”500元手錶”；（3）對比型：已經縮小了購物意圖，具體到了某幾個產品。Query例如：”諾基亞E71 E63″，”akg k450 px200″；（4）確定型：已經做了基本決定，重點考察某個物件。Query例如：”諾基亞N97″，”IBM T60″。通過對你的購物意圖的分析，主搜尋會呈現出完全不同的結果來。

之後的數個步驟後，主搜尋系統便根據上述以及更多複雜的條件列出了搜尋結果，這一切是由一千多臺搜尋伺服器完成。然後你開始逐一點選瀏覽搜尋出的寶貝。你開始檢視寶貝詳情頁面。經常網購的親們會發現，當你買過了一個寶貝之後，即便是商家多次修改了寶貝詳情頁，你仍然能夠通過‘已買到的寶貝’檢視當時的快照。這是為了防止商家對在商品詳情中承諾過的東西賴賬不認。那麼顯然，對於每年數十上百億比交易的商品詳情快照進行儲存和快速呼叫不是一個簡單的事情。這其中又涉及到數套系統的共同協作，其中較為重要的是Tair，淘寶自行研發的分散式KV儲存方案。

然後無論你是否真正進行了交易，你的這些訪問行為便忠實的被系統記錄下來，用於後續的業務邏輯和資料分析。這些記錄中訪問日誌記錄便是最重要的記錄之一，但是前邊我們得知，這些訪問是分佈在各個地區很多不同的伺服器上的，並且由於使用者眾多，這些日誌記錄都非常龐大，達到TB級別非常正常。那麼為了快速及時傳輸同步這些日誌資料，淘寶研發了TimeTunnel，用於進行實時的資料傳輸，交給後端系統進行計算報表等操作。

你的瀏覽資料、交易資料以及其它很多很多的資料記錄均會被保留下來。使得淘寶儲存的歷史資料輕而易舉的便達到了十數甚至更多個PB(1PB=1024TB=1048576GB)。如此巨大的資料量經過淘寶系統1:120的極限壓縮儲存在淘寶的資料倉儲中。並且通過一個叫做雲梯的，由2000多臺伺服器組成的超大規模資料系統不斷的進行分析和挖掘。

從這些資料中淘寶能夠知道小到你是誰，你喜歡什麼，你的孩子幾歲了，你是否在談戀愛，喜歡玩魔獸世界的人喜歡什麼樣的飲料等，大到各行各業的零售情況、各類商品的興衰消亡等等海量的資訊。

說了這麼多，其實也只是敘述了淘寶上正在執行的成千上萬個系統中的寥寥幾個。即便是你僅僅訪問一次淘寶的首頁，所涉及到的技術和系統規模都是你完全無法想象的，是淘寶2000多名頂級的工程師們的心血結晶，其中甚至包括長江學者、國家科學技術最高獎得主等眾多大牛。同樣，百度、騰訊等的業務系統也絕不比淘寶簡單。你需要知道的是，你每天使用的網際網路產品，看似簡單易用，背後卻凝聚著難以想象的智慧與勞動。

（本文所涉及到的技術與資料均來源於網際網路）

轉自：http://blog.renren.com/blog/254459622/799372165 孫放
據考察，內容來自阿里員工卡特

推薦《淘寶技術這十年》子柳 (作者)

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/14184018/viewspace-1063059/，如需轉載，請註明出處，否則將追究法律責任。

你剛才在淘寶上買了一件東西【技術普及貼】
2012-10-01
技術普及帖：你剛才在淘寶上買了一件東西
2012-11-14
[譯]JS裡我才知道的東西
2019-07-04
JS
程式設計師買東西
2012-08-08
程式設計師
其實在直播平臺買東西的客戶最愚蠢
2020-11-16
上線第一年，Instagram 的技術棧都有哪些東西？
2015-11-16
資料分析師買東西
2013-05-16
關於樹狀陣列一些有意思的東西
2016-04-28
陣列
東西學了容易忘？學會跟蹤你的知識
2016-11-14
我在淘寶花5塊錢買了一千個遊戲
2019-10-24
遊戲
對你同樣重要的非技術貼，10件事證明你跟錯了人
2020-04-04
你所需要擁抱的TypeScript [技術貼]
2019-03-13
TypeScript
知識普及：HTML 5到底是個什麼東西
2012-01-05
HTML
一套比較完整的前端技術選型，需要規整哪些東西，你知道不？
2019-03-03
前端
iOS開發幾年了,你清楚OC中的這些東西麼
2016-08-21
iOS
儘管蘋果讓步了，但他們的麻煩可能才剛剛開始
2021-09-13
蘋果
再來一篇演算法分析,eryl兄弟你要的東西!! (15千字)
2015-11-15
演算法
ftp下載其他電腦上的東西
2018-10-16
FTP
npm install 老是裝不上東西
2024-11-21
NPM
Android，你要掌握的一些東西
2020-11-03
Android
kill 程式時遇到的一件有意思的事情
2023-04-06
怪東西
2024-11-13
大二了,感覺真正的大學生活才剛開始
2024-04-22
淘寶技術發展
2012-11-14
意識到在X東上買到了假貨，維權過程分享
2024-06-01
React的平凡之路，或許我們才剛剛上路
2018-05-13
React
買完東西不付錢 Amazon Go要重新定義超市
2016-12-07
Go
golang 在 runtime 中的一些騷東西
2020-02-11
Golang
自動駕駛“絕地求生”結束了，但深蘭的造車故事才剛剛開始
2021-02-09
自動駕駛
mysqldump跟蹤匯出來東西是否排序了
2019-05-22
MySql排序
嗯！我自己寫（東拼西湊）了個"框架"
2019-02-14
框架
不要偷黑客的東西
2011-08-23
黑客
淘寶的十年技術之路
2014-10-15
技術貼：一篇文章看懂連結（超連結）設計
2016-04-05
推薦引擎演算法 – 猜你喜歡的東西
2016-02-05
演算法
累【非技術貼】
2015-12-10
谷歌在Google IO上宣佈了突破性AI技術
2024-05-15
谷歌GoAI
你的專案剛剛啟動？是時候考慮Globalization了！
2018-09-10

你剛才在淘寶上買了一件東西 一篇有意思的技術普及貼

相關文章

你剛才在淘寶上買了一件東西一篇有意思的技術普及貼