《大資料日知錄:架構與演算法》試讀
時代背景
記得CSDN之前有篇文章描述了大資料成功預測了美國大選,“大資料”並不真正關心誰來當選下一屆美國總統。不過所有的資料都顯示:政治科學家和其他人相關人士都認為奧巴馬獲得連任可能性比較大。本次的成功預言,展示了大資料強大的能量。
眾所周知,企業資料本身就蘊藏著價值,但是將有用的資料與沒有價值的資料進行區分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對於企業的運轉至關重要,但是其他資料也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視訊、人們在購買您的服務前後的所作所為、如何通過社交網路聯絡您的客戶、是什麼吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的稜鏡觀察,將其與其他資料集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。
但是屢見不鮮的是,很多公司仍然只是將資訊簡單堆在一起,僅將其當作為滿足公司治理規則而必須要儲存的資訊加以處理,而不是將它們作為戰略轉變的工具。
畢竟,資料和人員是業務部門僅有的兩筆無法被競爭對手複製的財富。在善用的人手中,好的資料是所有管理決策的基礎,帶來的是對客戶的深入瞭解和競爭優勢。資料是業務部門的生命線,必須讓資料在決策和行動時無縫且安全地流到人們手中。
所以,資料應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用資訊這樣看起來甚至有點晦澀的資料時會發生什麼,這些資料來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些資料,創造滿足潛在需求的新產品和服務。
基本概念
“大資料”這個術語最早期的引用可追溯到apache org的開源專案Nutch。當時,大資料用來描述為更新網路搜尋索引需要同時進行批量處理或分析的大量資料集。隨著谷歌MapReduce和Google File System (GFS)的釋出,大資料不再僅用來描述大量的資料,還涵蓋了處理資料的速度。
大資料日知錄:架構與演算法
這本書從架構與演算法角度全面梳理了大資料儲存與處理的相關技術,試讀章節主要是講了圖資料庫,其架構與演算法,這其中又分成了以下幾個部分:
1、線上查詢類圖資料庫
講述其三層結構,以及TAO圖資料庫。
2、常見圖挖掘問題
講述了PageRank 計算、單源最短路徑(Single Source Shortest Path)以及二部圖最大匹配。
3、離線挖掘資料分片
分別介紹了切邊法(Edge-Cut)和切點法(Vertex-Cut)。
4、離線挖掘計算模型
講解了以節點為中心的程式設計模型、GAS 程式設計模型、同步執行模型和非同步執行模型。
5、離線挖掘圖資料庫
以結合例項的方式講解了四個典型的離線挖掘圖資料庫:Pregel、Giraph、GraphChi和PowerGraph。
小結
通過試讀章節可以看出,《大資料日知錄:架構與演算法》這本書對於技術的講解,從深度上和作者本身經驗上都是相當不錯的,對於關鍵部分的技術架構講得很細很全面,並配以例項來加深和驗證相關的理論知識,有助於讀者對於大資料相關技術的理解。本書對於大資料技術所面臨的各種問題給出了相應的解決思路,並給出了相應演算法的原始碼或者偽碼,光這一章就有多達14個之多,從這裡也可以看出作者的努力與付出了。
相關文章
- 大資料日知錄 02 大資料常用演算法與資料結構大資料演算法資料結構
- 大資料架構師知識圖譜大資料架構
- 讀資料湖倉04資料架構與資料工程架構
- 資料結構與演算法_知識框架資料結構演算法框架
- 大資料日知錄 03 叢集 分散式協調大資料分散式
- 大資料架構師大資料架構
- Hulu大資料架構與應用經驗大資料架構
- 資料結構與演算法系列 目錄資料結構演算法
- 大資料架構和模式(一)——大資料分類和架構簡介大資料架構模式
- 資料結構與演算法之基礎知識資料結構演算法
- 《資料結構與演算法之美》資料結構與演算法學習書單 (讀後感)資料結構演算法
- 大資料架構之:Spark大資料架構Spark
- 大資料架構和模式(三)——理解大資料解決方案的架構層大資料架構模式
- 讀後感:資料結構與演算法JavaScript描述資料結構演算法JavaScript
- 試讀圖書——《大資料挑戰與nosql資料庫技術》大資料SQL資料庫
- 大資料---(3)金融資料架構大資料架構
- NUMA 架構與 資料庫架構資料庫
- [大資料] Spark架構詳解大資料Spark架構
- 讀資料湖倉08資料架構的演化架構
- 資料脫敏大資料架構設計大資料架構
- 資料結構與演算法分析 讀書筆記(樹)資料結構演算法筆記
- 資料治理與資料中臺架構架構
- 資料結構與演算法-資料結構(棧)資料結構演算法
- 一張圖讀懂阿里雲資料庫架構與選型阿里資料庫架構
- Hbase 系統架構與資料結構架構資料結構
- 大資料架構-使用HBase和Solr配置儲存與索引大資料架構Solr索引
- 《資料結構與演算法JavaScript描述》選讀:為什麼要學習資料結構和演算法資料結構演算法JavaScript
- 大資料基礎架構總結大資料架構
- 資料結構與演算法-複雜度分享&大 O 演算法資料結構演算法複雜度
- 《學習JavaScript資料結構與演算法》閱讀總結JavaScript資料結構演算法
- 《前端架構設計》讀後記錄前端架構
- 資料結構與演算法資料結構演算法
- 大資料測試與 傳統資料庫測試大資料資料庫
- 資料結構與演算法 二叉樹基本框架與知識點資料結構演算法二叉樹框架
- 資料管理架構:單體資料架構與分散式資料網格比較 - enyo架構分散式
- 讀《前端架構設計》 兼談架構與框架前端架構框架
- 《資料結構與演算法之美》為什麼要學習資料結構和演算法 (讀後感)資料結構演算法
- 資料結構:初識(資料結構、演算法與演算法分析)資料結構演算法