《大資料日知錄:架構與演算法》試讀

海蘭發表於2014-10-26

時代背景

記得CSDN之前有篇文章描述了大資料成功預測了美國大選,“大資料”並不真正關心誰來當選下一屆美國總統。不過所有的資料都顯示:政治科學家和其他人相關人士都認為奧巴馬獲得連任可能性比較大。本次的成功預言,展示了大資料強大的能量。

眾所周知,企業資料本身就蘊藏著價值,但是將有用的資料與沒有價值的資料進行區分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對於企業的運轉至關重要,但是其他資料也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視訊、人們在購買您的服務前後的所作所為、如何通過社交網路聯絡您的客戶、是什麼吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的稜鏡觀察,將其與其他資料集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。
但是屢見不鮮的是,很多公司仍然只是將資訊簡單堆在一起,僅將其當作為滿足公司治理規則而必須要儲存的資訊加以處理,而不是將它們作為戰略轉變的工具。
畢竟,資料和人員是業務部門僅有的兩筆無法被競爭對手複製的財富。在善用的人手中,好的資料是所有管理決策的基礎,帶來的是對客戶的深入瞭解和競爭優勢。資料是業務部門的生命線,必須讓資料在決策和行動時無縫且安全地流到人們手中。
所以,資料應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用資訊這樣看起來甚至有點晦澀的資料時會發生什麼,這些資料來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些資料,創造滿足潛在需求的新產品和服務。

基本概念


“大資料”這個術語最早期的引用可追溯到apache org的開源專案Nutch。當時,大資料用來描述為更新網路搜尋索引需要同時進行批量處理或分析的大量資料集。隨著谷歌MapReduce和Google File System (GFS)的釋出,大資料不再僅用來描述大量的資料,還涵蓋了處理資料的速度。


大資料日知錄:架構與演算法


這本書從架構與演算法角度全面梳理了大資料儲存與處理的相關技術,試讀章節主要是講了圖資料庫,其架構與演算法,這其中又分成了以下幾個部分:


1、線上查詢類圖資料庫


講述其三層結構,以及TAO圖資料庫。


2、常見圖挖掘問題


講述了PageRank 計算、單源最短路徑(Single Source Shortest Path)以及二部圖最大匹配。


3、離線挖掘資料分片


分別介紹了切邊法(Edge-Cut)和切點法(Vertex-Cut)


4、離線挖掘計算模型


講解了以節點為中心的程式設計模型、GAS 程式設計模型、同步執行模型和非同步執行模型。


5、離線挖掘圖資料庫


以結合例項的方式講解了四個典型的離線挖掘圖資料庫:Pregel、Giraph、GraphChi和PowerGraph。


小結


通過試讀章節可以看出,《大資料日知錄:架構與演算法》這本書對於技術的講解,從深度上和作者本身經驗上都是相當不錯的,對於關鍵部分的技術架構講得很細很全面,並配以例項來加深和驗證相關的理論知識,有助於讀者對於大資料相關技術的理解。本書對於大資料技術所面臨的各種問題給出了相應的解決思路,並給出了相應演算法的原始碼或者偽碼,光這一章就有多達14個之多,從這裡也可以看出作者的努力與付出了。


相關文章