Google大資料技術架構探祕
Google是大資料時代的奠基者
1、谷歌的資料中心
谷歌已經建立了世界上最快、最強大、最高質量的資料中心,它的8個主要資料中心都遠離其位於加州山景城的總部,分別位於美國南卡羅來納州的伯克利郡,愛荷華州的康瑟爾布拉夫斯,喬治亞州的道格拉斯郡,俄克拉荷馬州的梅斯郡,北卡羅來納州的勒努瓦,俄勒岡州的達爾斯;另外2個在美國境外,分別是芬蘭的哈米納和比利時的聖吉斯蘭。此外,谷歌公司還在中國香港和台灣,以及新加坡和智利建立了資料中心。
2、谷歌新一代搜尋引擎平臺和大資料分析核心技術
Google是GFS MapReduce BigTable的締造者,但Google 新一代搜尋引擎平臺正逐步用更強計算能力的系統來替換原有系統,新一代搜尋引擎平臺有幾個核心技術系統:
一是用基於Percolator的增量處理索引系統來取代MapReduce批處理索引系統,這個索引系統被稱作Caffeine,它比MapReduce批處理索引系統搜尋更快。
二是專為BigTable設計的分散式儲存Colossus,也被稱為GFS2(二代Google檔案系統),它專為建立Caffeine搜尋索引系統而用。
三是列儲存資料庫BigTable,但為了更好地支援大資料集的互動分析,Google推出了Dremel和PowerDrill。Dremel被設計用來管理非常大量的大資料集(指資料集的數量和每資料集的規模都大),而PowerDrill則設計用來分析少量的大資料集(指資料集的規模大,但資料集的數量不多)時提供更強大的分析效能。
四是為Google Instant提供服務的實時搜尋引擎儲存和分析架構。
五是Pregel,這是谷歌更快捷的網路和圖演算法。
在谷歌新一代搜尋引擎平臺上,每月40億小時的視訊,4.25億Gmail使用者,150,000,000 GB Web索引,卻能實現0.25秒搜尋出結果。
3、谷歌基礎雲服務
基於Colossus,谷歌為使用者提供計算、儲存和應用的雲服務。計算服務包括計算的引擎(ComputeEngine)和應用APP的引擎(AppEngine);儲存服務包括雲端儲存(CloudStorge)、雲SQL(CLoudSQL)、雲資料儲存(Cloud DataStore)、永久磁碟等服務;雲應用服務包括BigQuery、雲終端(Cloud Endpoints)、緩衝、佇列等。
4、谷歌的大資料智慧應用服務
Google提供的大資料分析智慧應用包括客戶情緒分析、交易風險(欺詐分析)、產品推薦、訊息路由、診斷、客戶流失預測、法律文案分類、電子郵件內容過濾、政治傾向預測、物種鑑定等多個方面。據稱,大資料已經給Google每天帶來2300萬美元的收入。例如,一些典型應用如下:
(1)基於Map Reduce,Google的傳統應用包括資料儲存、資料分析、日誌分析、搜尋質量以及其他資料分析應用。
(2)基於Dremel系統, Google推出其強大的資料分析軟體和服務 — BigQuery,它也是Google自己使用的網際網路檢索服務的一部分。Google已經開始銷售線上資料分析服務,試圖與市場上類似亞馬遜網路服務(Amazon Web Services)這樣的企業雲端計算服務競爭。這個服務,能幫助企業使用者在數秒內完成萬億位元組的掃描。
(3)基於搜尋統計演算法,Google推出搜尋引擎的輸寫糾錯、統計型機器翻譯等服務。
(4)Google的趨勢圖應用。通過使用者對於搜尋詞的關注度,很快的理解社會上的熱點是什麼。對廣告主來說,它的商業價值就是很快的知道現在使用者在關心什麼,他們應該在什麼地方投入一個廣告。據此,Google公司也開發了一些大資料產品,如“Brand Lift in Adwords”、“Active GRP”等,以幫助廣告客戶分析和評估其廣告活動的效率。
(5)Google Instant。輸入關鍵詞的過程,Google Instant 會邊打邊預測可能的搜尋結果。
谷歌的大資料平臺架構仍在演進中,追去的目標是更大資料集、更快、更準確的分析和計算。這將進一步引領大資料技術發展的方向。
本文部分內容節選自北京賽智時代資訊科技諮詢有限公司(CIOManage諮詢)的《2013-2014年中國網際網路行業大資料應用年度研究報告》。
相關文章
- 探訪美式微博Twitter的大資料技術架構大資料架構
- PingCode 技術架構揭祕GC架構
- LLM大模型向量資料庫技術架構淺析大模型資料庫架構
- 阿里雲、Amazon、Google雲資料庫方案架構與技術分析阿里Go資料庫架構
- PingCode Flow技術架構揭祕GC架構
- 2017雙11技術揭祕—阿里巴巴資料庫技術架構演進阿里資料庫架構
- Amazon Corretto技術細節探祕
- Yahoo的新一代大資料技術架構解析大資料架構
- HTTP服務七層架構技術探討HTTP架構
- 歐洲最大MySQL使用者Booking.com資料庫構架探祕!MySql資料庫
- 評《資料原生的金融技術架構》架構
- 探祕技術專案管理(三)(轉)專案管理
- 探祕技術專案管理(二)(轉)專案管理
- 探祕技術專案管理(一)(轉)專案管理
- 人力資源資料視覺化技術架構視覺化架構
- 大資料平臺架構技術選型與場景運用大資料架構
- Stack Overflow 2016最新架構探祕架構
- 深度揭祕:大資料時代企業賣技術還是賣資料?大資料
- 大資料架構師大資料架構
- 開發者中心混合雲主機接入技術探祕
- 《離線和實時大資料開發實戰》(二)大資料平臺架構 & 技術概覽大資料架構
- 大資料湖倉一體架構對分散式儲存有哪些技術需求?大資料架構分散式
- WEB 架構技術Web架構
- 大資料架構和模式(一)——大資料分類和架構簡介大資料架構模式
- 運營級WLAN網路架構及關鍵技術探討架構
- 大資料技術體系1(清華:大資料技術體系)大資料
- 現代資料架構的7個關鍵技術架構
- DataOps for LLM 的資料工程技術架構實踐架構
- 大資料架構之:Spark大資料架構Spark
- 大資料技術 - Directus大資料
- 大資料技術 - Azkaban大資料
- 大資料技術 - Airflow大資料AI
- 大資料技術 - DataX大資料
- 大資料技術 - Canal大資料
- 大資料技術 - Maxwell大資料
- 大資料技術 - Phoenix大資料
- 大資料技術 - StarRocks大資料
- 大資料技術 - StreamX大資料