《大資料:技術與應用實踐指南》圖書資訊

broadviewbj發表於2013-11-27

大資料:技術與應用實踐指南(中國工程院院士倪光南傾情作序,雷萬雲、毛新生、段永朝、安暉聯合力薦

趙剛

ISBN 978-7-121-21560-5

201310月出版

定價:59.00

292

16


編輯推薦

1、趙剛博士在資訊化領域耕耘10餘年,對大資料的認識深刻且系統。

2、闡述的視角放在了大資料的技術應用上,對於想利用大資料的讀者非常具有參考價值。

3、結合應用實踐,詳細闡述了傳統資訊系統與大資料平臺的整合策略,大資料應用實踐的流程和方法,並介紹了主要的大資料應用產品和解決方案。

內容提要

大資料是網際網路、移動應用、社交網路和物聯網等技術發展的必然趨勢,大資料應用成為當前最為熱門的資訊科技應用領域。本書由淺入深,首先概述性地分析了大資料的發展背景、基本概念,從業務的角度分析了大資料應用的主要業務價值和業務需求,在此基礎上介紹大資料的技術架構和關鍵技術,結合應用實踐,詳細闡述了傳統資訊系統與大資料平臺的整合策略,大資料應用實踐的流程和方法,並介紹了主要的大資料應用產品和解決方案。最後,對大資料面臨的挑戰和未來的趨勢進行了展望。

本書既具有技術深度,又具有很強的可操作性,提供了一個系統性、架構性的大資料應用實踐指南,綱要性地指導大資料應用實踐,推動大資料技術在各個行業的廣泛應用。

目錄

1 大資料的概念和發展背景..........................................................................1

1.1 大資料的發展背景..................................................................................................1

1.2 大資料的概念和特徵..............................................................................................4

1.2.1 大資料的概念.................................................................................................4

1.2.2 大資料的特徵.................................................................................................4

1.3 大資料的產生..........................................................................................................5

1.3.1 資料產生由企業內部向企業外部擴充套件...........................................................5

1.3.2 資料產生從Web 1.0 Web 2.0、從網際網路向移動網際網路擴充套件.....................6

1.3.3 資料產生從計算機/網際網路(IT)向物聯網(IOT)擴充套件..............................7

1.4 資料的量級..............................................................................................................7

1.4.1 資料大小的量級.............................................................................................7

1.4.2 大資料的量級.................................................................................................8

1.5 大量不同的資料型別..............................................................................................8

1.5.1 按照資料結構分類.........................................................................................9

1.5.2 按照產生主體分類....................................................................................... 12

1.5.3 按照資料作用方式分類................................................................................ 13

1.6 大資料的速度........................................................................................................ 14

1.7 大資料的潛在價值................................................................................................ 14

1.8 大資料的挑戰........................................................................................................ 15

1.8.1 業務視角不同帶來的挑戰............................................................................ 15

1.8.2 技術架構不同帶來的挑戰............................................................................ 15

1.8.3 管理策略不同帶來的挑戰............................................................................. 16

2 大資料應用的業務需求................................................................. 17

2.1 大資料應用的業務流程........................................................................................ 17

2.1.1 產生資料...................................................................................................... 17

2.1.2 聚集資料...................................................................................................... 18

2.1.3 分析資料...................................................................................................... 19

2.1.4 利用資料...................................................................................................... 19

2.2 大資料應用的業務價值........................................................................................ 19

2.2.1 發現大資料的潛在價值................................................................................ 20

2.2.2 實現大資料整合創新的價值........................................................................ 20

2.2.3 新領域再利用的價值................................................................................... 21

2.3 各行業大資料應用的個性需求............................................................................ 21

2.3.1 網際網路與電子商務行業................................................................................ 21

2.3.2 零售業.......................................................................................................... 27

2.3.3 金融業.......................................................................................................... 28

2.3.4 政府.............................................................................................................. 32

2.3.5 醫療業.......................................................................................................... 34

2.3.6 能源業.......................................................................................................... 36

2.3.7 製造業.......................................................................................................... 37

2.3.8 電信運營業.................................................................................................. 39

2.3.9 交通物流業.................................................................................................. 41

2.4 企業級大資料應用的共性需求............................................................................ 42

2.4.1 客戶分析...................................................................................................... 42

2.4.2 績效分析...................................................................................................... 46

2.4.3 欺詐和風險評估........................................................................................... 48

2.5 以銀行客戶分析為例,分析一個大資料的應用場景....................................... 49

3 大資料應用的總體架構和關鍵技術.............................................................. 51

3.1 總體架構................................................................................................................. 51

3.1.1 業務目標...................................................................................................... 51

3.1.2 架構設計原則............................................................................................... 52

3.1.3 總體架構參考模型....................................................................................... 55

3.1.4 總體架構的特點........................................................................................... 58

3.2 大資料儲存和處理技術........................................................................................ 59

3.2.1 Hadoop:分散式儲存和計算平臺................................................................ 59

3.2.2 Hadoop HDFS:分散式檔案系統............................................................. 65

3.2.3 Hadoop MapReduce:分散式計算框架.................................................... 72

3.2.4 Hadoop NoSQL:分散式資料庫.............................................................. 98

3.2.5 Hadoop 之外的大資料計算技術................................................................. 113

3.3 大資料查詢和分析技術:SQL on Hadoop ....................................................... 126

3.3.1 Hive:基本的Hadoop 查詢和分析............................................................. 127

3.3.2 Hive 2.0Hive 的最佳化和升級.................................................................... 137

3.3.3 實時互動的SQLImpala drill .............................................................. 140

3.3.4 基於PostgreSQL SQL on Hadoop........................................................... 146

3.4 大資料高階分析和視覺化技術.......................................................................... 147

3.4.1 傳統資料倉儲與聯機分析處理技術........................................................... 147

3.4.2 大資料對傳統分析的挑戰.......................................................................... 150

3.4.3 大資料探勘與高階分析.............................................................................. 150

3.4.4 大資料探勘與高階分析庫:Mahout........................................................... 155

3.4.5 非結構化複雜資料分析.............................................................................. 156

3.4.6 實時預測分析............................................................................................. 163

3.4.7 開源視覺化工具:R 語言.......................................................................... 170

3.4.8 視覺化技術................................................................................................ 178

3.5 以銀行客戶分析為例的大資料的技術環境部署............................................. 187

3.5.1 銀行客戶大資料應用體系架構................................................................... 187

3.5.2 技術環境安裝與配置................................................................................. 189

4 大資料與企業級應用的整合策略............................................................... 202

4.1 大資料傳輸、整合和流程管理平臺................................................................. 203

4.1.1 資料傳輸.................................................................................................... 203

4.1.2 資料整合.................................................................................................... 209

4.1.3 流程管理.................................................................................................... 211

4.2 大資料與儲存架構的整合.................................................................................. 215

4.2.1 傳統儲存架構比較..................................................................................... 215

4.2.2 大資料平臺的儲存架構的選擇................................................................... 216

4.2.3 叢集儲存的發展......................................................................................... 217

4.2.4 基於HDFS 的叢集儲存.............................................................................. 219

4.2.5 固態硬碟(SSD)對記憶體計算的支援........................................................ 221

4.3 大資料與網路架構的發展.................................................................................. 221

4.4 大資料與虛擬化技術的整合.............................................................................. 227

4.5 在雲端計算平臺上的大資料雲.............................................................................. 229

4.6 大資料與資訊保安.............................................................................................. 231

4.7 以銀行客戶分析為例,分析一個大資料的平臺整合..................................... 234

5 大資料應用的實踐方法與案例................................................................... 235

5.1 實踐方法論.......................................................................................................... 235

5.1.1 業務需求定義............................................................................................. 235

5.1.2 資料應用現狀分析與標杆比較................................................................... 237

5.1.3 大資料應用架構規劃和設計...................................................................... 238

5.1.4 大資料技術切入與實施.............................................................................. 239

5.1.5 大資料試用和評估..................................................................................... 240

5.1.6 大資料應用推廣......................................................................................... 241

5.2 應用案例............................................................................................................... 241

5.2.1 亞馬遜........................................................................................................ 241

5.2.2 雅虎............................................................................................................ 242

5.2.3 淘寶網........................................................................................................ 242

5.2.4 Facebook .................................................................................................... 243

5.3 以銀行客戶分析為例的實施案例分析............................................................. 244

5.3.1 銀行基於大資料的客戶分析的業務需求.................................................... 244

5.3.2 銀行基於大資料的客戶分析的現狀與標杆比較......................................... 245

5.3.3 銀行基於大資料的客戶分析的應用架構規劃與設計................................. 246

5.3.4 銀行基於大資料的資料分析的實施、試點和推廣..................................... 247

6 大資料應用的主流解決方案...................................................................... 248

6.1 產業鏈................................................................................................................... 248

6.1.1 國際上的大資料生態環境.......................................................................... 248

6.1.2 國內產業鏈主要力量................................................................................. 251

6.2 主流廠商解決方案.............................................................................................. 252

6.2.1 Cloundera ................................................................................................... 252

6.2.2 Hortonworks ............................................................................................... 254

6.2.3 MapR.......................................................................................................... 254

6.2.4 IBM ............................................................................................................ 255

6.2.5 Oracle ......................................................................................................... 257

6.2.6 EMC ........................................................................................................... 258

6.2.7 Intel ............................................................................................................ 259

6.2.8 SAP ............................................................................................................ 260

6.2.9 Teradata ...................................................................................................... 262

7 大資料應用的未來挑戰和趨勢........................................................................ 263

7.1 隱私保護............................................................................................................... 263

7.1.1 法律保護.................................................................................................... 264

7.1.2 技術保護.................................................................................................... 266

7.1.3 理念革新.................................................................................................... 267

7.2 技術標準............................................................................................................... 268

7.2.1 ISO 標準化進展......................................................................................... 268

7.2.2 評價基準和基準測試................................................................................. 269

7.2.3 標準套件.................................................................................................... 273

7.3 大資料治理.......................................................................................................... 273

7.3.1 資料治理框架............................................................................................. 274

7.3.2 資料質量管理............................................................................................. 274

7.3.3 大資料的組織、角色和責任...................................................................... 276

7.4 適應商業社會的未來趨勢.................................................................................. 277

7.4.1 從產品推銷向資料營銷的轉變................................................................... 277

7.4.2 從流程驅動到分析驅動的轉變................................................................... 277

7.4.3 從私有資源到公共服務的轉變................................................................... 278

精彩節摘

3.4.3  大資料探勘與高階分析

資料探勘是從大量資料中尋找其規律的技術,是統計學、資料庫技術和人工智慧技術的綜合。資料探勘是從資料中自動地抽取出模式、關聯、變化、異常和有意義的結構。資料探勘主要價值在於利用資料探勘技術能發現規律並改善預測模型。

資料探勘技術可以分為描述性技術和預測性技術,描述性技術瞭解資料中潛在的規律,預測性技術是用歷史預測未來的技術。

資料探勘的任務是從大量的資料中發現模式。根據資料探勘的任務可分為多種型別,其中比較典型的有:關聯分析、基於決策樹或神經網路的分類分析、聚類分析、序列分析等,如圖3-50所示是其中一些應用示例。下面分別介紹幾種常見的資料探勘型別。

1. 關聯(Association)分析

關聯規則描述了一組資料項之間的關係。關聯分析是在交易資料、關係資料或其他資訊載體中,發現存在於專案集或物件集之間的關聯規則,包括關聯、相關性、因果結構或頻繁出現的模式。在關聯規則挖掘演算法中,通常給出了置信度和支援度兩個概念,對於置信度和支援度均大於給定閾值的規則稱為強規則,而關聯分析主要就是對強規則的挖掘。關聯規則模式屬於描述型模式,發現關聯規則的演算法屬於無監督學習的方法。關聯分析廣泛用於購物籃分析、交叉銷售、商品目錄設計等商業決策領域。沃爾瑪就使用關聯規則發現了哪些人同時購買了紙尿片和啤酒。例如,下面是在購物籃分析中的關聯規則例子。

問題是:“什麼商品組合,顧客可能會在一次購物中同時購買?”

購物籃分析:設全域為出售商店的集合(即專案全集),一次購物購買(即事務)的商品為專案全集的子集,若每種商品用一個布林變數表示該商品的有無,則每個購物籃可用一個布林向量表示。透過對布林向量的分析,得到反映商品頻繁關聯或同時購買的購買模式。這些模式可用關聯規則描述。

購買紙尿布與購買啤酒的關聯規則可表示為:

diaper→beer [support=2%,confidence=60%]

 

support為支援度,confidence為置信度。

該規則表示:在所分析的全部事務中,有2%的事務同時購買紙尿布和啤酒;在購買紙尿布的顧客中60%也購買啤酒。

常用的關聯分析演算法有Apriori演算法及它的各種改進或擴充套件演算法。Apriori演算法是一種挖掘布林關聯規則頻繁項集的演算法。演算法的核心思想是基於頻集理論的一種遞推方法,目的是從資料庫中挖掘出那些支援度和信任度都不低於給定的最小支援度閾值和最小信任度閾值的關聯規則。在這裡,所有支援度大於最小支援度的項集稱為頻繁項集,簡稱頻集。對於大規模、分佈在不同站點上的資料庫或資料倉儲,關聯規則的挖掘可以使用並行演算法,如Count分佈演算法、Data分佈演算法、Candidate分佈演算法、智慧Data分佈演算法(IDD)和DMA分佈演算法等。

2. 分類(Classification)分析

所謂分類是根據資料的特徵為每個類別建立一個模型,根據資料的屬性將資料分配到不同的組中。在實際應用過程中,分類規則可以分析分組中資料的各種屬性,並找出資料的屬性模型,從而確定哪些資料屬於哪些組。這樣就可以利用該模型來分析已有資料,並預測新資料將屬於哪一個組。類的描述可以是顯式的,如用一組特徵概念描述;也可以是隱式的,如用一個數學公式或數學模型描述。

分類是事先定義好類別,屬於有指導學習範疇。分類的目的是學會一個分類模型(稱為分類器),該模型能把資料庫中的資料項對映到給定類別中的某一個類中。要構造分類器,需要有一個訓練樣本資料集作為輸入。訓練集由一組資料庫記錄或元組構成,每個元組是一個由特徵值組成的特徵向量。此外,訓練樣本還有一個類別標記。一個具體樣本的形式可表示為:

v1,v2,...,vn; c);其中vi表示特徵值,c表示類別。

常用分類演算法有決策樹、神經網路(NN)、貝葉斯分類(Bayes)等。決策樹是一個樹結構,它用樣本的屬性作為節點,用屬性的取值作為分支。決策樹的根節點是所有樣本資訊中資訊量最大的屬性,中間節點是以該節點為根的子樹所包含的樣本子集中資訊量最大的屬性,決策樹的葉節點是樣本的類別值。決策樹學習是以例項為基礎的歸納學習演算法,它著眼於從一組無次序、無規則的事例中推理出決策樹表示形式的分類規則。它採用自頂向下的遞推方式,在決策樹的內部節點進行屬性值的比較並根據不同的屬性值判斷從該節點向下的分支,在決策樹的葉節點得到結論。所以,從根節點到葉節點的一條路徑就對應著一條合取規則,整棵決策樹就對應著一組析取表示式規則。著名的決策樹演算法有ID3和改進的C4.5。如圖3-51所示為一個決策樹的例子。

神經網路(NN)演算法是反映人腦結構及功能的一種數學模型,它是由大量的簡單處理單元經廣泛並行互聯形成的一種網路系統,用以模擬人類進行知識的表示與儲存以及利用知識進行推理的行為。它是對人腦系統的簡化、抽象和模擬,具有人腦功能的許多特徵。如圖3-52所示為基於知識的神經網路的資訊流程。

分類適合類別或分類體系已經確定的場合,目前分類分析已經成功地用於顧客分類、疾病分類、商業建模和信用卡分析等領域。

3. 聚類分析(Clustering

聚類是指一組彼此間非常“相似”的資料物件的集合。相似的程度可以透過距離函式來表示,由使用者或專家指定。聚類分析是按照某種相近程度度量方法將資料分成互不相同的一些分組。每一個分組中的資料相近,不同分組之間的資料相差較大。好的聚類方法可以產生高質量的聚類,保證每一聚類內部的相似性很高,而各聚類之間的相似性很低。聚類分析的核心是將某些定性的相近程度測量方法轉換成定量測試方法。採用聚類分析,系統可以根據部分資料發現規律,找出對全體資料的描述。

常用演算法有K均值、最近鄰、神經網路等。K均值演算法把n個物件根據它們的屬性分為k個分割,k < n。它與處理混合正態分佈的最大期望演算法很相似,試圖找到資料中自然聚類的中心。它假設物件屬性來自於空間向量,並且目標是使各個群組內部的均方誤差總和最小。

聚類分析用於很多領域,如對購物籃分析中,可用聚類分析基於其他人的興趣來預測這個顧客的興趣。

4. 序列(Sequence)分析

序列分析主要用於分析資料倉儲中的某類與時間相關的資料,搜尋類似的序列或子序列,並挖掘時序模式、週期性、趨勢和偏離等。序列模式可以看成是一種特定的關聯模型,它在關聯模型中增加了時間屬性。例如,它可以匯出,“在兩年前購買了福特轎車的顧客,有70%可能在今年採取以舊換新的購車行動”,“在購買了腳踏車和購物籃的所有客戶中,有80%的客戶會在兩個月後購買打氣筒”等。

5. 偏差檢測(Deviation Detection)分析

用於檢測並解釋資料分類的偏差,即資料集中間顯著不同於其他資料的物件。它有助於濾掉知識發現引擎所抽取的無關資訊,也可濾掉那些不合適的資料,同時可產生新的關注性事實。偏差包括很多有用的知識,如分類中的反常例項,模式的例外,觀察結果對模型預測的偏差,量值隨時間的變化等。偏差檢測的基本方法是尋找觀察結果與參照之間的差別,觀察結果常常是某一個域的值或多個域值的彙總,參照是給定模型的預測、外界提供的標準或另一個觀察。常用演算法有決策樹、神經網路、異常因子LOF檢測等。常用應用有及時發現有欺詐嫌疑的異常行為等。

6. 預測模型(Predictive Modeling)分析

所謂預測即從資料庫或資料倉儲中已知的資料推測未知的資料或物件集中某些屬性的值分佈。建立預測模型的常用方法:迴歸分析、線性模型、支援向量機、關聯規則、決策樹預測、遺傳演算法、神經網路等。後續章節將重點闡述預測分析。

7. 模式相似性挖掘

用於在時間資料庫或空間資料庫中搜尋相似模式時,從所有物件中找出使用者定義範圍內的物件,或找出所有元素對中兩者的距離小於使用者定義的距離範圍的元素對。模式相似性挖掘的方法有相似度測量法、遺傳演算法等。

作者簡介

趙剛,博士。北京賽智時代資訊科技諮詢有限公司(CIOManage)創始人。歷任國內著名資訊化諮詢公司賽迪顧問股份有限公司高階副總裁、首席資訊化諮詢顧問,國內計算機系統整合一級資質企業北京賽迪時代資訊產業股份有限公司總經理、首席架構師,2012年獲得中國電子資訊產業發展研究院十大賽迪學者稱號,兼任中國資訊化推進聯盟專家、中國電子學會高階會員。

2年,主持和參與過的資訊化諮詢和整合專案有:國家新一代資訊科技應用戰略研究、亞太地區智慧城市指標體系研究、中國-歐盟資訊社會研究、天津市智慧城市規劃、國土資源部分散式國土資源資訊共享服務平臺、國家圖書館文津館智慧搜尋叢集平臺、公安部虛擬化資料平臺、中海油企業級資料中心和災備中心規劃、國藥集團私有云計算平臺規劃、北京市物聯網應用示範專案初步設計、鄂爾多斯市人口基礎資料庫建設等。

在資訊化領域耕耘10餘年,服務的政府、企業客戶超過100家,發表文章若干篇,著有專著《IT管理體系-戰略、管理和服務》,參與編寫《智慧城市:規劃、建設和評估》、《資訊化基本知識》、《資訊系統審計》等。

媒體評論

本書可以為一切想了解大資料技術應用、建設大資料企業級應用架構、享受大資料分析之美的讀者提供一把開啟大資料世界的鑰匙,即使是對大資料有所研究的人士,本書系統性的視角也可以使他們瞭解全域性、開闊思路,本書具有很高的參考價值。

中國工程院院士  倪光南

 

當今大資料的應用將是企業在主資料管理和商業智慧基礎上一個重要應用發展方向。趙博士這本書從大資料的概念、應用需求、技術架構、應用整合和方法論等方面系統闡述大資料應用,為企業大資料技術和應用實踐提供指導。這本書不是大資料理念的書,也不是純粹的HADOOP技術開發的書,而主要著眼大資料的技術架構和應用需求,為企業大資料的應用人員提供一個實踐性的指南。

雲端計算領域權威專家、中國醫藥集團總公司資訊化專家組組長、資訊部主任  雷萬雲

 

大資料已經慢慢從一個Buzz Word變成一個時代的化身,潛移默化地深入每個人的生活,在大資料時代我們也該靜下心來想想真正的大資料是什麼?大資料改變了些什麼?大資料不僅僅是一個技術問題,追根究底其實是一個商業問題,怎麼讓大資料產生價值,我們需要一個創新的想法,而技術是實現價值的一種手段。這本書從不同行業的業務需求入手,涵蓋了很多具體的大資料場景用例,也深入淺出地涉及了大資料相關的技術及其架構,同時從企業角度給出了可參考的解決方案,是一本很好的大資料應用實踐指南。

IBM中國開發中心技術長兼新技術研發中心總經理  毛新生

 

這本書太及時了!它回答了這樣一個務實的問題:在大資料術語滿天飛的時代,究竟應該怎麼做?怎麼做,並非簡單地用某種新工具、新理念來指導實踐,而是透過貫通理論與實踐、案例與方法,構建和充實大資料這個方興未艾的新疆域。

財訊傳媒集團(SEEC)首席戰略官、ZiffDavis媒體集團(中國)戰略發展研究主任

段永朝

 

本書以系統的視角,從概念背景到整合策略再到應用例項,解析了大資料的相關技術和基本應用路徑,對處於摸索道路上的大資料研發人員與應用人員,實現從大資料藍圖到大資料實踐的邁進,以及充分挖掘和利用大資料中的價值,將帶來有用的啟迪和幫助。

賽迪智庫軟體與資訊服務業研究所所長  安暉

前言

隨著網際網路、移動網際網路、社交網路、物聯網、雲端計算等新一代資訊科技的應用和推廣,人類產生的資料成倍增長,資料種類繁多,資料在寬頻網路中高速流動,資料的待開發價值越來越大,我們已經進入了大資料時代!短短兩三年,大資料的理念已經深入人心,大資料的技術也層出不窮,但大資料技術的應用才剛剛開始。本書把闡述的視角放在了大資料的技術應用上,透過分析大資料應用的關鍵成功因素,希望為政府、行業和企業的大資料技術開發和應用人員提供一本框架性和系統性的技術與應用實踐指南。

全書共分為7 章。

1 章是大資料的概念和發展背景,回顧大資料理念和技術的發展歷程,梳理大資料發展脈絡,並從大資料的體量、資料型別、速度和潛在價值等4 個特徵定義大資料。

大資料的技術應用是為了實現業務的價值,所以第2 章分析大資料應用的業務需求,梳理企業級大資料應用的業務流程,剖析大資料應用對於組織的業務價值,並深入分析網際網路、零售、金融、電信、能源等9 個行業的大資料應用需求,總結企業級大資料應用的客戶分析、績效分析和風險分析等共性需求。

3 章闡述大資料應用的總體架構和關鍵技術。總體架構分析基於Apache 開源的大資料平臺總體架構參考模型,涵蓋了大資料處理、大資料儲存、大資料訪問、大資料排程、大資料分析展現、大資料與傳統資料庫連線、大資料管理、安全和備份恢復框架等技術,它能夠為企業建設大資料應用平臺提供框架參考。基於這一架構,本章進一步詳細介紹了大資料儲存和處理、大資料查詢分析、大資料高階分析和視覺化等3 個方面的關鍵技術。Hadoop 是大資料技術的核心,本章詳細介紹了Hadoop 三大核心技術,即分散式檔案系統HDFS、分散式計算框架MapReduce、分散式資料庫HBase 的技術原理、技術構成和應用示例,也介紹了Hadoop 之外的記憶體計算、流計算等框架。大資料查詢和分析技術介紹了SQL on Hadoop 技術,包括HiveImpala 等技術。大資料高階分析和視覺化技術也是大資料的關鍵技術,本章總體闡述了大資料探勘與高階分析的演算法和技術,對非結構化複雜資料分析、預測分析和開源的R 語言進行了重點介紹,並介紹了大資料視覺化的一些工具。

4 章闡述大資料技術應用與企業級應用系統的整合策略。現有企業級資料分析是以關係型資料庫為基礎的,建立了涵蓋網路、儲存、伺服器、虛擬化、雲端計算和資訊保安等方面的企業IT 架構,大資料技術的企業級應用需要實現與這些技術的高效整合,構建新一代的企業級應用架構。本章分別介紹了大資料傳輸、整合和流程化管理,大資料與儲存架構的整合,大資料對網路架構的發展,大資料與虛擬化技術的整合,雲端計算平臺上的大資料雲,以及大資料與資訊保安等6 個方面的內容。

5 章介紹了大資料企業級應用的實踐方法論和應用案例。大資料應用的實踐方法論闡述了業務需求定義、現狀分析、架構規劃和設計、技術切入與實施,以及試用、評估和推廣等大資料應用的開發流程。對亞馬遜、雅虎、淘寶等網際網路企業應用案例的分析,則試圖給大資料技術應用實踐提供技術細節和實施規模的參考。

6 章介紹了大資料應用的主流商業解決方案,首先介紹大資料產業鏈上的主要廠商,並進一步介紹了9 家主流廠商的解決方案。

7 章是對大資料應用中未來挑戰和發展趨勢的分析。主要討論了隱私保護、技術標準、大資料治理等應用發展中的關鍵挑戰和應對策略,最後預測了大資料應用下商業生活的發展趨勢。

全書以某商業銀行基於大資料的客戶分析為案例,便於讀者根據案例所闡述的應用場景,結合自身需求學習和掌握大資料技術的應用。

本書的寫作最大程度地得益於從事大資料技術研發、應用和研究的社群、業界同仁和愛好者。作者起的作用僅僅是穿針引線,將大資料技術應用開拓者們分享的研究和應用心得總結起來,希望有助於更多技術研發、應用人員和愛好者系統地學習和應用大資料,本書也提供了這些成果的連結,讀者可以更加深入地去學習和研究。當然,本書基於作者在資訊化領域多年的研究、諮詢和系統整合的實踐經驗,也基於作者所創立的北京賽智時代資訊科技諮詢有限公司()在大資料領域的研究成果。本書引用了CIOManage(賽智時代)的《2013 年中國大資料應用價值研究報告》的很多研究成果。感謝所有為大資料技術應用而努力的同仁們!

本書付梓之際,作者誠惶誠恐,大資料技術遠未成熟,大資料技術應用也剛剛拉開帷幕,這樣一本技術應用實踐指南一定存在諸多問題。但技術應用本來就是一個不斷改進和最佳化的過程,希望我和讀者在共同學習和應用的過程,逐步總結出更為精確和實用的經驗。歡迎讀者與我交流,聯絡資訊如下。

微博:http://weibo.com/blogbot

博士部落格:http://blog.sina.com.cn/blogbot

郵箱:blogbot@sina.com

趙剛

2013 7 29 日於北京嘉銘園

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/13164110/viewspace-1061216/,如需轉載,請註明出處,否則將追究法律責任。

相關文章