什麼叫大資料 大資料的概念
1、大資料定義
對於“大資料”(Big data)研究機構Gartner給出了定義,“大資料”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力
的海量、高增長率和多樣化的資訊資產。
大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。
從技術上看,大資料與雲端計算的關係就像一枚硬幣的正反面一樣密不可分。大資料必然無法用單臺的計算機進行處理,必須採用分散式架構。它的特色在於對海量資料進行分散式資料探勘,但它必須依託雲端計算的分散式處理、分散式資料庫和雲端儲存、虛擬化技術。
隨著雲時代的來臨,大資料(Big data)也吸引了越來越多的關注。《著雲臺》的分析師團隊認為,大資料(Big data)通常用來形容一個公司創造的大量非結構化資料和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理(MPP)資料庫、資料探勘電網、分散式檔案系統、分散式資料庫、雲端計算平臺、網際網路和可擴充套件的儲存系統。
最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:
8bit= 1Byte
1KB= 1,024 Bytes
1MB= 1,024 KB = 1,048,576 Bytes
1GB= 1,024 MB = 1,048,576 KB
1TB= 1,024 GB = 1,048,576 MB
1PB= 1,024 TB = 1,048,576 GB
1EB= 1,024 PB = 1,048,576 TB
1ZB= 1,024 EB = 1,048,576 PB
1YB= 1,024 ZB = 1,048,576 EB
1BB= 1,024 YB = 1,048,576 ZB
1NB= 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
2發展歷史
1887–1890年
赫爾曼·霍爾瑞斯美國統計學家赫爾曼·霍爾瑞斯為了統計1890年的人口普查資料發明了一臺電動器來讀取卡片上的洞數,該裝置讓美國用一年時間就完成了原本耗時8年的人口普查活動,由此在全球範圍內引發了資料處理的新紀元。
1935–1937年
美國總統富蘭克林·羅斯福利用社會保障法開展了美國政府最雄心勃勃的一項資料收集專案,IBM最終贏得競標,即需要整理美國的2600萬個員工和300萬個僱主的記錄。共和黨總統候選人阿爾夫蘭登scoffs嘲笑地說,“要整理如此繁多的職工檔案,還必須而呼叫大規模的現場調查人員去核實那些資訊不完整的人員記錄。”
1943年
一家英國工廠為了破譯二戰期間的納粹密碼,讓工程師開發了系列開創性的能進行大規模資料處理的機器,並使用了第一臺可程式設計的電子計算機進行運算。該計算機被命名為“巨人”,為了找出攔截資訊中的潛在模式,它以每秒鐘5000字元的速度讀取紙卡——將原本需要耗費數週時間才能完成的工作量壓縮到了幾個小時。破譯德國部隊前方陣地的資訊以後,幫助盟軍成功登陸了諾曼底。
1997年
美國宇航局研究員邁克爾·考克斯和大衛·埃爾斯沃斯首次使用“大資料”這一術語來描述20世紀90年代的挑戰:超級計算機生成大量的資訊——在考克斯和埃爾斯沃斯按案例中,模擬飛機周圍的氣流——是不能被處理和視覺化的。資料集通常之大,超出了主儲存器、本地磁碟,甚至遠端磁碟的承載能力。”他們稱之為“大資料問題。”
2002年
在9/11襲擊後,美國政府為阻止恐怖主義已經涉足大規模資料探勘。前國家安全顧問約翰·波因德克斯特領導國防部整合現有政府的資料集,組建一個用於篩選通訊、犯罪、教育、金融、醫療和旅行等記錄來識別可疑人的大資料庫。一年後國會因擔憂公民自由權而停止了這一專案。
2004年
9/11委員會呼籲反恐機構應統一組建“一個基於網路的資訊共享系統”,以便能快處理應接不暇的資料。到2010年,美國國家安全域性的30000名員工將攔截和儲存17億年電子郵件、電話和其它通訊日報。與此同時,零售商積累關於客戶購物和個人習慣的大量資料,沃爾瑪自吹已擁有一個容量為460位元組的快取器——比當時網際網路上的資料量還要多一倍。
2007–2008年
隨著社交網路的激增,技術部落格和專業人士為“大資料” 概念注入新的生機。“當前世界範圍內已有的一些其他工具將被大量資料和應用演算法所取代”。《連線》的克里斯·安德森認為當時處於一個“理論終結時代”。一些政府機構和美國的頂尖電腦科學家聲稱,“應該深入參與大資料計算的開發和部署工作,因為它將直接有利於許多工的實現。”
2009年1月
印度政府建立印度唯一的身份識別管理局,對12億人的指紋、照片和虹膜進行掃描,併為每人分配12位的數字ID號碼,將資料彙集到世界最大的生物識別資料庫中。官員們說它將會起到提高政府的服務效率和減少腐敗行為的作用,但批評者擔心政府會針對個別人進行剖面分析並與分享這些人的私密生活細節。
2009年5月
大資料或成反恐分析利器美國總統巴拉克·奧巴馬政府推出data.gov網站作為政府開放資料計劃的部分舉措。該網站的超過4.45萬量資料集被用於保證一些網站和智慧手機應用程式來跟蹤從航班到產品召回再到特定區域內失業率的資訊,這一行動激發了從肯亞到英國範圍內的政府們相繼推出類似舉措。
2009年7月
應對全球金融危機,聯合國祕書長潘基文承諾建立警報系統,抓住“實時資料帶給貧窮國家經濟危機的影響” 。聯合國全球脈衝專案已研究了對如何利用手機和社交網站的資料來源來分析預測從螺旋價格到疾病爆發之類的問題。
2011年2月
掃描2億年的頁面資訊,或4兆兆位元組磁碟儲存,只需幾秒即可完成。IBM的沃森計算機系統在智力競賽節目《危險邊緣》中打敗了兩名人類挑戰者。後來紐約時報配音這一刻為一個“大資料計算的勝利。”
2012年3月
美國政府報告要求每個聯邦機構都要有一個“大資料”的策略,作為迴應,奧巴馬政府宣佈一項耗資2億美元的大資料研究與發展專案。國家衛生研究院將一套人類基因組專案的資料集存放在亞馬遜的計算機雲內,同時國防部也承諾要開發出可“從經驗中進行學習”的“自主式”防禦系統。中央情報局局長戴維·彼得雷烏斯將軍在發帖討論阿拉伯之春機構通過雲端計算收集和分析全球社會媒體資訊之事時,不禁驚歎我們已經被自卸卡車倒進了“‘數字塵土”中。
2012年7月
美國國務卿希拉蕊·克林頓宣佈了一個名為“資料2X”的公私合營企業用來收集統計世界各地的婦女和女童在經濟、政治和社會地位方面的資訊。“資料不只是測量過程——它能給予我們啟發,”她解釋說。“一旦人們開始對某個問題實施測量時,就更傾向於採取行動來解決它們,因為沒有人願意排到名單的最低端去。”讓大資料開始競賽吧。
3技術盤點
HadoopMapReduce
思維模式轉變的催化劑是大量新技術的誕生,它們能夠處理大資料分析所帶來的3個V的挑戰。紮根於開源社群,Hadoop已經是目前大資料平臺中應用率最高的技術,特別是針對諸如文字、社交媒體訂閱以及視訊等非結構化資料。除分散式檔案系統之外,伴隨Hadoop一同出現的還有進行大資料集處理MapReduce架構。根據權威報告顯示,許多企業都開始使用或者評估Hadoop技術來作為其大資料平臺的標準。
我們生活的時代,相對穩定的資料庫市場中還在出現一些新的技術,而且在未來幾年,它們會發揮作用。事實上,NoSQL資料庫在一個廣義上派系基礎上,其本身就包含了幾種技術。總體而言,他們關注關係型資料庫引擎的限制,如索引、流媒體和高訪問量的網站服務。在這些領域,相較關係型資料庫引擎,NoSQL的效率明顯更高。
記憶體分析
在Gartner公司評選的2012年十大戰略技術中,記憶體分析在個人消費電子裝置以及其他嵌入式裝置中的應用將會得到快速的發展。隨著越來越多的價格低廉的記憶體用到資料中心中,如何利用這一優勢對軟體進行最大限度的優化成為關鍵的問題。記憶體分析以其實時、高效能的特性,成為大資料分析時代下的“新寵兒”。如何讓大資料轉化為最佳的洞察力,也許記憶體分析就是答案。大資料背景下,使用者以及IT提供商應該將其視為長遠發展的技術趨勢。
整合裝置
隨著資料倉儲裝置(Data Warehouse Appliance)的出現,商業智慧以及大資料分析的潛能也被激發出來,許多企業將利用資料倉儲新技術的優勢提升自身競爭力。整合裝置將企業的資料倉儲硬體軟體整合在一起,提升查詢效能、擴充儲存空間並獲得更多的分析功能,並能夠提供同傳統資料倉儲系統一樣的優勢。在大資料時代,整合裝置將成為企業應對資料挑戰的一個重要利器。
4結構特點
結構
大資料就是網際網路發展到現今階段的一種表象或特徵而已,沒有必要神話它或對它保持敬畏之心,在以雲端計算為代表的技術創新大幕的襯托下,這些原本很難收集和使用的資料開始容易被利用起來了,通過各行各業的不斷創新,大資料會逐步為人類創造更多的價值。
其次,想要系統的認知大資料,必須要全面而細緻的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。在這裡從大資料的特徵定義理解行業對大資料的整體描繪和定性;從對大資料價值的探討來深入解析大資料的珍貴所在;洞悉大資料的發展趨勢;從大資料隱私這個特別而重要的視角審視人和資料之間的長久博弈。
第二層面是技術,技術是大資料價值體現的手段和前進的基石。在這裡分別從雲端計算、分散式處理技術、儲存技術和感知技術的發展來說明大資料從採集、處理、儲存到形成結果的整個過程。
第三層面是實踐,實踐是大資料的最終價值體現。在這裡分別從網際網路的大資料,政府的大資料,企業的大資料和個人的大資料四個方面來描繪大資料已經展現的美好景象及即將實現的藍圖。
特點
大資料大資料分析相比於傳統的資料倉儲應用,具有資料量大、查詢分析複雜等特點。《計算機學報》刊登的“架構大資料:挑戰、現狀與展望”一文列舉了大資料分析平臺需要具備的幾個重要特性,對當前的主流實現平臺——並行資料庫、MapReduce及基於兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大資料分析方面的努力進行了介紹,對未來研究做了展望。
大資料的4個“V”,或者說特點有四個層面:第一,資料體量巨大。從TB級別,躍升到PB級別;第二,資料型別繁多。前文提到的網路日誌、視訊、圖片、地理位置資訊等等。第三,處理速度快,1秒定律,可從各種型別的資料中快速獲得高價值的資訊,這一點也是和傳統的資料探勘技術有著本質的不同。第四,只要合理利用資料並對其進行正確、準確的分析,將會帶來很高的價值回報。業界將其歸納為4個“V”——Volume(資料體量大)、Variety(資料型別繁多)、Velocity(處理速度快)、Value(價值密度低)。
從某種程度上說,大資料是資料分析的前沿技術。簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是大資料技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。
大資料最核心的價值就是在於對於海量資料進行儲存和分析。相比起現有的其他技術而言,大資料的“廉價、迅速、優化”這三方面的綜合成本是最優的。
5處理工具
當前用於分析大資料的工具主要有開源與商用兩個生態圈。
開源大資料生態圈:
1、Hadoop HDFS、HadoopMapReduce, Hbase、Hive 漸次誕生,早期Hadoop生態圈逐步形成。
2、. Hypertable是另類。它存在於Hadoop生態圈之外,但也曾經有一些使用者。
3、NoSQL,membase、MongoDB
商用大資料生態圈:
1、一體機資料庫/資料倉儲:IBM PureData(Netezza), OracleExadata, SAP Hana等等。
2、資料倉儲:TeradataAsterData, EMC GreenPlum, HPVertica 等等。
3、資料集市:QlikView、 Tableau 、 以及國內的Yonghong Data Mart 。
6處理流程
資料採集
定義:利用多種輕型資料庫來接收發自客戶端的資料,並且使用者可以通過這些資料庫來進行簡單的查詢和處理工作。
特點和挑戰:併發係數高。
使用的產品:MySQL,Oracle,Hbase,Redis和 MongoDB等,並且這些產品的特點各不相同。
統計分析
大資料定義:將海量的來自前端的資料快速匯入到一個集中的大型分散式資料庫 或者分散式儲存叢集,利用分散式技術來對儲存於其內的集中的海量資料 進行普通的查詢和分類彙總等,以此滿足大多數常見的分析需求。
特點和挑戰:匯入資料量大,查詢涉及的資料量大,查詢請求多。
使用的產品:InfoBright,Hadoop(Pig和Hive),YunTable, SAP Hana和OracleExadata,除Hadoop以做離線分析為主之外,其他產品可做實時分析。
挖掘資料
定義:基於前面的查詢資料進行資料探勘,來滿足高階別 的資料分析需求。
特點和挑戰:演算法複雜,並且計算涉及的資料量和計算量都大。
使用的產品:R,Hadoop Mahout
7操作方法
SOA模型
我們需要的是以資料為中心的SOA還是以SOA為中心的資料?答案取決於如何處理的SOA-資料關係的三個不同模型來管理大資料、雲資料和資料層次結構。在越來越多的虛擬資源中,將這些模型之間所有型別的資料進行最優擬合是SOA所面臨的巨大挑戰之一。本文詳細介紹了每個SOA模型管理資料的優點、選擇和選項。
SOA的三個資料中心模型分別是資料即服務(DaaS)模型、物理層次結構模型和架構元件模型。DaaS資料存取的模型描述了資料是如何提供給SOA元件的。物理模型描述了資料是如何儲存的以及儲存的層次圖是如何傳送到SOA資料儲存器上的。最後,架構模型描述了資料、資料管理服務和SOA元件之間的關係。
SOA和資料企業的例子
也許以極限情況為開始是理解SOA資料問題的最好方式:一個企業的資料需求完全可以由關聯式資料庫管理系統(RDBMS)中的條款來表示。這樣一個企業可能會直接採用資料庫裝置或者將專用的資料庫伺服器和現有的查詢服務連線到SOA元件(查詢即服務,或QaaS)上。這種設計理念之前已經被人們所接受。該設計之所以成功是因為它平衡了上述三個模型之間的關係。QaaS服務模型不是機械地連線到儲存器上;而是通過一個單一的架構——RDBMS(關係型資料庫管理系統)。資料去重和完整性便於管理單一的架構。
通過大資料的例子可以更好地理解為什麼這個簡單的方法卻不能在更大的範圍內處理資料。多數的大資料是非關係型的、非交易型的、非結構化的甚至是未更新的資料。由於缺乏資料結構因此將其抽象成一個查詢服務並非易事,由於資料有多個來源和形式因此很少按序儲存,並且定義基礎資料的完整性和去重過程是有一些規則的。當作為大資料引入到SOA的應用程式中時,關鍵是要定義三種模型中的最後一種模型,SOA資料關係中的架構模型。有兩種選擇:水平方向和垂直方向。
大資料:“人工特徵工程+線性模型”的盡頭SOA和各類資料模型
在水平整合資料模型中,資料收集隱蔽於一套抽象的資料伺服器,該伺服器有一個或多個介面連線到應用程式上,也提供所有的完整性和資料管理功能。元件雖不能直接訪問資料,但作為一種即服務形式,就像他們在簡單情況下的企業,其資料的要求是純粹的RDBMS模型。應用程式元件基本上脫離了RDBMS與大資料之間資料管理的差異。儘管由於上述原因這種方法不能建立簡單的RDBMS查詢模型,但是它至少複製了我們上面提到的簡單的RDBMS模型。
垂直整合的資料模型以更多應用程式特定的方式連線到資料服務上,該方式使得客戶關係管理、企業資源規劃或動態資料認證的應用程式資料很大程度在服務水平上相互分離,這種分離直接涉及到資料基礎設施。在某些情況下,這些應用程式或許有可以直接訪問儲存/資料服務的SOA元件。為了提供更多統一的資料完整性和管理,管理伺服器可以作為SOA元件來操作各種資料庫系統,以資料庫特定的方式執行常見的任務,如去重和完整性檢查。這種方法更容易適應於遺留應用和資料結構, 但它在問資料何訪方式上會破壞SOA即服務原則,也可能產生資料管理的一致性問題。
SOA和水平資料模型
毫無疑問水平模型更符合SOA原則,因為它更徹底地從SOA元件中抽象出了資料服務。不過,為了使其有效,有必要對非關係型資料庫進行抽象定義和處理低效率與抽象有關的流程——SOA架構師知道除非小心的避免此類事情否則這將會成為不可逾越的障礙。
水平的SOA資料策略已經開始應用於適用大資料的抽象資料。解決這個問題最常見的方法是MapReduce,可以應用於Hadoop形式的雲構架。Hadoop以及類似的方法可以分發、管理和訪問資料,然後集中查詢這一分散式資訊的相關結果。實際上,SOA元件應將MapReduce和類似資料分析功能作為一種查詢功能應用。
效率問題
效率問題較為複雜。因為水平資料庫模型可能是通過類似大多數SOA流程的資訊服務匯流排來完成的,一個重要的步驟是要確保與該編排相關的開銷額度保持在最低程度。這可以幫助減少與SOA相關的資料訪問開銷,但它不能克服儲存系統本身的問題。因為這些儲存系統已經通過水平模型脫離了SOA元件,很容易被忽略與延遲和資料傳輸量相關的問題,特別地,如果資料庫是雲分佈的,那麼使用他們就會產生可變的網路延遲。
上述問題的一個解決方案是現代分層儲存模式。資料庫不是磁碟,而是一組相互連線的快取記憶體點,其儲存於本地記憶體中,也可能轉向固態硬碟,然後到本地磁碟,最後到雲端儲存。快取演算法處理這些快取點之間的活動,從而來平衡儲存成本(同時也是平衡同步地更新成本)和效能。
大資料應用領域對於大資料,它也是經常可以建立適用於大多數分析的彙總資料。例如一個計算不同地點車輛數量的交通遙測應用。這種方法可以產生大量的資料,但是如果彙總資料最後一分鐘還儲存在記憶體中,最後一小時儲存在快閃記憶體中,最後一天存在磁碟上,那麼控制應用程式所需的實際時間可以通過快速訪問資源得到滿足,然而假設分析時我們可以使用一些更便宜、更慢的應用程式是會怎樣。
SOA都是抽象的,但當抽象隱藏了底層影響效能和響應時間的複雜性時,這種抽象的危險程度會提高。資料訪問也是這樣的,因此,SOA架構師需要認真地考慮抽象與效能之間的平衡關係,併為其特定的業務需求優化它。
Hadoop
Hadoop旨在通過一個高度可擴充套件的分散式批量處理系統,對大型資料集進行掃描,以產生其結果。Hadoop專案包括三部分,分別是Hadoop Distributed File System(HDFS)、HadoopMapReduce程式設計模型,以及Hadoop Common。
Hadoop平臺對於操作非常大型的資料集而言可以說是一個強大的工具。為了抽象Hadoop程式設計模型的一些複雜性,已經出現了多個在Hadoop之上執行的應用開發語言。Pig、Hive和Jaql是其中的代表。而除了Java外,您還能夠以其他語言編寫map和reduce函式,並使用稱為Hadoop Streaming(簡寫為Streaming)的API呼叫它們。
流定義
從技術角度而言,流是通過邊緣連線的節點圖。圖中的每個節點都是“運算子”或“介面卡”,均能夠在某種程度上處理流內的資料。節點可以不包含輸入和輸出,也可以包含多個輸入和輸出。一個節點的輸出與另外一個或多個節點的輸入相互連線。圖形的邊緣將這些節點緊密聯絡在一起,表示在運算子之間移動的資料流。
右圖一個簡單的流圖,它可以從檔案中讀取資料,將資料傳送到名為Functor的運算子(此運算子能夠以某種程式設計方式轉換所傳入的資料),然後將這些資料傳入另一個運算子。在此圖片中,流資料被傳送至Split運算子,而後又將資料傳入檔案接收器或資料庫(具體情況視Split運算子的內部狀況而定)。
利用Apache Hadoop等開源專案,通過感測器、RFID、社交媒體、呼叫中心記錄和其他來源提供的新型資料創造價值。
Streams
大資料應用領域即,IBM InfoSphere Streams。在IBMInfoSphere Streams(簡稱Streams)中,資料將會流過有能力操控資料流(每秒鐘可能包含數百萬個事件)的運算子,然後對這些資料執行動態分析。這項分析可觸發大量事件,使企業利用即時的智慧實時採取行動,最終改善業務成果。
當資料流過這些分析元件後,Streams將提供運算子將資料儲存至各個位置,或者如果經過動態分析某些資料被視為毫無價值,則會丟棄這些資料。你可能會認為Streams與複雜事件處理(CEP) 系統非相似,不過Streams的設計可擴充套件性更高,並且支援的資料流量也比其他系統多得多。此外,Streams還具備更高的企業級特性,包括高可用性、豐富的應用程式開發工具包和高階排程。
出於這樣的目的,許多組織開始啟動自己的大資料治理計劃。所謂大資料治理,指的是制定策略來協調多個職能部門的目標,從而優化、保護和利用大資料,將其作為一項企業資產。
8主要問題
容量問題
這裡所說的“大容量”通常可達到PB級的資料規模,因此,海量資料儲存系統也一定要有相應等級的擴充套件能力。與此同時,儲存系統的擴充套件一定要簡便,可以通過增加模組或磁碟櫃來增加容量,甚至不需要停機。在解決容量問題上,不得不提LSI公司的全新Nytro™智慧化快閃記憶體解決方案,採用Nytro產品,客戶可以將資料庫事務處理效能提高30倍,並且超過每秒4.0GB的持續吞吐能力,非常適用於大資料分析。
延遲問題
“大資料”應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。有很多“大資料”應用環境需要較高的IOPS效能,比如HPC高效能運算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態儲存裝置應運而生,小到簡單的在伺服器內部做快取記憶體,大到全固態介質可擴充套件儲存系統通過高效能快閃記憶體儲存,自動、智慧地對熱點資料進行讀/寫快取記憶體的LSI Nytro系列產品等等都在蓬勃發展。
安全問題
某些特殊行業的應用,比如金融資料、醫療資訊以及政府情報等都有自己的安全標準和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大資料分析往往需要多類資料相互參考,而在過去並不會有這種資料混合訪問的情況,大資料應用催生出一些新的、需要考慮的安全性問題,這就充分體現出利用基於DuraClass™ 技術的LSI SandForce®快閃記憶體處理器的優勢了,實現了企業級快閃記憶體效能和可靠性,實現簡單、透明的應用加速,既安全又方便。
對於那些正在使用大資料環境的企業來說,成本控制是關鍵的問題。想控制成本,就意味著我們要讓每一臺裝置都實現更高的“效率”,同時還要減少那些昂貴的部件。重複資料刪除等技術已經進入到主儲存市場,而且還可以處理更多的資料型別,這都可以為大資料儲存應用帶來更多的價值,提升儲存效率。在資料量不斷增長的環境中,通過減少後端儲存的消耗,哪怕只是降低幾個百分點,這種錙銖必較的伺服器也只有LSI推出的Syncro™ MX-B機架伺服器啟動盤裝置都能夠獲得明顯的投資回報,當今,資料中心使用的傳統引導驅動器不僅故障率高,而且具有較高的維修和更換成本。如果用它替換資料中心的獨立伺服器引導驅動器,則能將可靠性提升多達100倍。並且對主機系統是透明的,能為每一個附加伺服器提供唯一的引導映象,可簡化系統管理,提升可靠性,並且節電率高達60%,真正做到了節省成本的問題。
資料的積累
許多大資料應用都會涉及到法規遵從問題,這些法規通常要求資料要儲存幾年或者幾十年。比如醫療資訊通常是為了保證患者的生命安全,而財務資訊通常要儲存7年。而有些使用大資料儲存的使用者卻希望資料能夠儲存更長的時間,因為任何資料都是歷史記錄的一部分,而且資料的分析大都是基於時間段進行的。要實現長期的資料儲存,就要求儲存廠商開發出能夠持續進行資料一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現資料直接在原位更新的功能需求。
靈活性
大資料儲存系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證儲存系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴充套件。在大資料儲存環境中,已經沒有必要再做資料遷移了,因為資料會同時儲存在多個部署站點。一個大型的資料儲存基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用型別和資料場景。
應用感知
最早一批使用大資料的使用者已經開發出了一些針對應用的定製的基礎設施,比如針對政府專案開發的系統,還有大型網際網路服務商創造的專用伺服器等。在主流儲存系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和效能的重要手段,所以,應用感知技術也應該用在大資料儲存環境裡。
針對小使用者
依賴大資料的不僅僅是那些特殊的大型使用者群體,作為一種商業需求,小型企業未來也一定會應用到大資料。我們看到,有些儲存廠商已經在開發一些小型的“大資料”儲存系統,主要吸引那些對成本比較敏感的使用者。
9治理計劃
大資料大資料治理計劃也需要關注與其他資訊治理計劃類似的問題。這些計劃必須解決以下問題:
■後設資料
大資料治理需要建立可靠的後設資料,避免出現窘境,例如,一家企業重複購買了相同的資料集兩次,而原因僅僅是該資料集在兩個不同的儲存庫內使用了不同的名稱。
■隱私
企業需要嚴格關注遵守隱私方面的問題,例如利用社交媒體進行資料分析。
■資料質量
考慮到大資料的龐大數量和超快速度,組織需要確定哪種級別的資料質量屬於“足夠好”的質量。
■資訊生命週期管理。大資料治理計劃需要制定存檔策略,確保儲存成本不會超出控制。除此之外,組織需要設定保留計劃,以便按照法規要求合理處置資料。
■管理人員
最終,企業需要招募大資料管理員。例如,石油與天然氣公司內的勘探開採部門的管理員負責管理地震資料,包括相關後設資料在內。這些管理員需要避免組織因不一致的命名規範而付款購買已經擁有的外部資料。除此之外,社交媒體管理員需要與法律顧問和高階管理人員配合工作,制定有關可接受的資訊使用方法的策略。
10價值機遇
資料價值
眾所周知,企業資料本身就蘊藏著價值,但是將有用的資料與沒有價值的資料進行區分看起來可能是一個棘手的問題。
顯然,您所掌握的人員情況、工資表和客戶記錄對於企業的運轉至關重要,但是其他資料也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視訊、人們在購買您的服務前後的所作所為、如何通過社交網路聯絡您的客戶、是什麼吸引合作伙伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的稜鏡觀察,將其與其他資料集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。
但是屢見不鮮的是,很多公司仍然只是將資訊簡單堆在一起,僅將其當作為滿足公司治理規則而必須要儲存的資訊加以處理,而不是將它們作為戰略轉變的工具。
畢竟,資料和人員是業務部門僅有的兩筆無法被競爭對手複製的財富。在善用的人手中,好的資料是所有管理決策的基礎,帶來的是對客戶的深入瞭解和競爭優勢。資料是業務部門的生命線,必須讓資料在決策和行動時無縫且安全地流到人們手中。
大資料應用所以,資料應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用資訊這樣看起來甚至有點晦澀的資料時會發生什麼:這些資料來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些資料,創造滿足潛在需求的新產品和服務。
企業需要向創造和取得資料方面的投入索取回報。有效管理來自新舊來源的資料以及獲取能夠破解龐大資料集含義的工具只是等式的一部分,但是這種挑戰不容低估。產生的資料在數量上持續膨脹;音訊、視訊和影象等富媒體需要新的方法來發現;電子郵件、IM、tweet和社交網路等合作和交流系統以非結構化文字的形式儲存資料,必須用一種智慧的方式來解讀。
但是,應該將這種複雜性看成是一種機會而不是問題。處理方法正確時,產生的資料越多,結果就會越成熟可靠。感測器、GPS系統和社交資料的新世界將帶來轉變運營的驚人新視角和機會。請不要錯過。
有些人會說,資料中蘊含的價值只能由專業人員來解讀。但是澤位元組經濟並不只是資料科學家和高階開發員的天下。
資料的價值在於將正確的資訊在正確的時間交付到正確的人手中。未來將屬於那些能夠駕馭所擁有資料的公司,這些資料與公司自身的業務和客戶相關,通過對資料的利用,發現新的洞見,幫助他們找出競爭優勢。
資料機遇
自從有了IT部門,董事會就一直在要求資訊管理專家提供洞察力。實際上,早在1951年,對預測小吃店蛋糕需求的訴求就催生了計算機的首次商業應用。自那以後,我們利用技術來識別趨勢和制定戰略戰術的能力不斷呈指數級日臻完善。
今天,商業智慧 (使用資料模式看清曲線周圍的一切) 穩居 CXO 們的重中之重。在理想的世界中,IT 是巨大的槓桿,改變了公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠使用者、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓使用者群並創造市場。
大資料分析是商業智慧的演進。當今,感測器、GPS 系統、QR 碼、社交網路等正在建立新的資料流。所有這些都可以得到發掘,正是這種真正廣度和深度的資訊在創造不勝列舉的機會。要使大資料言之有物,以便讓大中小企業都能通過更加貼近客戶的方式取得競爭優勢,資料整合和資料管理是核心所在。
面臨從全球化到衰退威脅的風暴, IT部門領導需要在掘金大資料中打頭陣,新經濟環境中的贏家將會是最好地理解哪些指標影響其大步前進的人。
大資料應用當然,企業仍將需要聰明的人員做出睿智的決策,瞭解他們面臨著什麼,在充分利用的情況下,大資料可以賦予人們近乎超感官知覺的能力。Charles Duigg是《習慣的力量》一書的作者,他找出的一個黃金案例分析的例子是美國零售商 Target,其發現婦女在懷孕的中間三個月會經常購買沒有氣味的護膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優惠券。實際上,Target 知道一位婦女懷孕時,那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。
很明顯,在可以預見的將來,隱私將仍是重要的考量,但是歸根結底,用於瞭解行為的技術會為方方面面帶來雙贏,讓賣家瞭解買家,讓買家喜歡買到的東西。
再看一下作家兼科學家 Stephen Wolfram的例子,他收集有關自身習慣的資料,以分析他的個人行為,預測事件在未來的可能性。
大資料將會放大我們的能力,瞭解看起來難以理解和隨機的事物。對其前途的瞭解提供了獲取嶄新知識和能力的機會,將改變您的企業運作的方式。
發展前景
大資料的意義是由人類日益普及的網路行為所伴生的,受到相關部門、企業採集的,蘊含資料生產者真實意圖、喜好的,非傳統結構和意義的資料 。
2013年5月10日,阿里巴巴集團董事局主席馬雲在淘寶十週年晚會上,將卸任阿里集團CEO的職位,並在晚會上做卸任前的演講,馬雲說,大家還沒搞清PC時代的時候,移動網際網路來了,還沒搞清移動網際網路的時候,大資料時代來了。
大資料正在改變著產品和生產過程、企業和產業,甚至競爭本身的性質。把資訊科技看作是輔助或服務性的工具已經成為過時的觀念,管理者應該認識到資訊科技的廣泛影響和深刻含義,以及怎樣利用資訊科技來創造有力而持久的競爭優勢。無疑,資訊科技正在改變著我們習以為常的經營之道,一場關係到企業生死存亡的技術革命已經到來。
藉著大資料時代的熱潮,微軟公司生產了一款資料驅動的軟體,主要是為工程建設節約資源提高效率。在這個過程裡可以為世界節約40%的能源。拋開這個軟體的前景不看,從微軟團隊致力於研究開始,可以看他們的目標不僅是為了節約了能源,更加關注智慧化運營。通過跟蹤取暖器、空調、風扇以及燈光等積累下來的超大量資料,捕捉如何杜絕能源浪費。“給我提供一些資料,我就能做一些改變。如果給我提供所有資料,我就能拯救世界。”微軟史密斯這樣說。而智慧建築正是他的團隊專注的事情。
隨著全球範圍內個人電腦、智慧手機等裝置的普及和新興市場內不斷增長的網際網路訪問量,以及監控攝像機或智慧電錶等裝置產生的資料爆增,使數字宇宙的規模在2012到2013兩年間翻了一番,達到驚人的2.8ZB。 IDC預計,到2020年,數字宇宙規模將超出預期,達到40ZB。
大資料應用40ZB究竟是個什麼樣的概念呢?地球上所有海灘上的沙粒加在一起估計有七萬零五億億顆。40ZB相當於地球上所有海灘上的沙粒數量的57倍。也就是說到2020年,數字宇宙將每兩年翻一番;到2020年,人均資料量將達5,247GB。
該報告同時顯示,儘管個人和機器每天產生大量資料,使數字宇宙前所未有地不斷膨脹,但僅有0.4%的全球資料得到了分析。由此可見,大資料的應用幾乎是一塊未被開墾的處女地。
價值
谷歌搜尋、Facebook的帖子和微博訊息使得人們的行為和情緒的細節化測量成為可能。挖掘使用者的行為習慣和喜好,凌亂紛繁的資料背後找到更符合使用者興趣和習慣的產品和服務,並對產品和服務進行鍼對性地調整和優化,這就是大資料的價值。大資料也日益顯現出對各個行業的推進力。
大資料時代來臨首先由資料豐富度決定的。社交網路興起,大量的UGC(網際網路術語,全稱為User Generated Content,即使用者生成內容的意思)內容、音訊、文字資訊、視訊、圖片等非結構化資料出現了。另外,物聯網的資料量更大,加上移動網際網路能更準確、更快地收集使用者資訊,比如位置、生活資訊等資料。從資料量來說,已進入大資料時代,但硬體明顯已跟不上資料發展的腳步。
以往大資料通常用來形容一個公司創造的大量非結構化和半結構化資料,而提及“大資料”,通常是指解決問題的一種方法,並對其進行分析挖掘,進而從中獲得有價值資訊,最終衍化出一種新的商業模式。
雖然大資料在國內還處於初級階段,但是商業價值已經顯現出來。首先,手中握有資料的公司站在金礦上,基於資料交易即可產生很好的效益;其次,基於資料探勘會有很多商業模式誕生,定位角度不同,或側重資料分析。比如幫企業做內部資料探勘,或側重優化,幫企業更精準找到使用者,降低營銷成本,提高企業銷售率,增加利潤。
未來,資料可能成為最大的交易商品。但資料量大並不能算是大資料,大資料的特徵是資料量大、資料種類多、非標準化資料的價值最大化。因此,大資料的價值是通過資料共享、交叉複用後獲取最大的資料價值。未來大資料將會如基礎設施一樣,有資料提供方、管理者、監管者,資料的交叉複用將大資料變成一大產業。據統計,大資料所形成的市場規模在51億美元左右,而到2017年,此資料預計會上漲到530億美元。
儲存
隨著大資料應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了儲存、網路以及計算技術的發展。畢竟處理大資料這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,我們很明顯的看到大資料分析應用需求正在影響著資料儲存基礎設施的發展。從另一方面看,這一變化對儲存廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化資料和非結構化資料量的持續增長,以及分析資料來源的多樣化,此前儲存系統的設計已經無法滿足大資料應用的需要。儲存廠商已經意識到這一點,他們開始修改基於塊和檔案的儲存系統的架構設計以適應這些新的要求。
針對大資料的世界領先品牌儲存企業有:IBM、EMC、LSISandForce 、 雲創儲存、INTEL、惠普、戴爾、甲骨文、日立、賽門鐵克等。
11資料回報
“大資料”的商業價值簡而言之,企業可以通過思考資料戰略的總體回報,來應對大資料的挑戰,抓住大資料的機會。Informatica所指的‘資料回報率’,是為幫助高階IT和業務部門領導者進行大資料基本的戰術和戰略含義的討論而設計的一個簡單概念。等式非常簡單:如果您提高資料對於業務部門的價值,同時降低管理資料的成本,從資料得到的回報就會增加 -- 無論是用金錢衡量,還是更好的決策
資料回報率=資料價值/資料成本
在技術層面,資料回報率為資料集成、資料管理、商業智慧和分析方面的投入提供了業務背景和案例。它還與解決業務的基礎有關:掙錢、省錢、創造機會和管理風險。它涉及對效率的考慮,同時推動了改變遊戲規則的洞察力。
實現回報
Informatica深知,對於很多企業來說,向資料回報模型的轉變不會一蹴而就。管理資料並將其成本降低的短期要求將會是首要焦點,同樣還需要打破障礙以瞭解資料。企業只有這時才可以開始從傳統和新興資料集獲得更多價值。Informatica可提供資料整合平臺和領導力,為企業提供全程幫助。
在大資料的世界中,最靈活和成功的企業將會是那些善用大機遇的公司。
12意義用途
意義
1.變革價值的力量
未來十年,決定中國是不是有大智慧的核心意義標準(那個”思想者”),就是國民幸福。一體現到民生上,通過大資料讓事情變得澄明,看我們在人與人關係上,做得是否比以前更有意義;二體現在生態上,看我們在天與人關係上,做得是否比以前更有意義。總之,讓我們從前10年的意義混沌時代,進入未來10年意義澄明時代。
2.變革經濟的力量
生產者是有價值的,消費者是價值的意義所在。有意義的才有價值,消費者不認同的,就賣不出去,就實現不了價值;只有消費者認同的,才賣得出去,才實現得了價值。大資料幫助我們從消費者這個源頭識別意義,從而幫助生產者實現價值。這就是啟動內需的原理。
3.變革組織的力量
隨著具有語義網特徵的資料基礎設施和資料資源發展起來,組織的變革就越來越顯得不可避免。大資料將推動網路結構產生無組織的組織力量。最先反映這種結構特點的,是各種各樣去中心化的WEB2.0應用,如RSS、維基、部落格等。 大資料之所以成為時代變革力量,在於它通過追隨意義而獲得智慧。
用途
大資料可分成大資料技術、大資料工程、大資料科學和大資料應用等領域。目前人們談論最多的是大資料技術和大資料應用。工程和科學問題尚未被重視。大資料工程指大資料的規劃建設運營管理的系統工程;大資料科學關注大資料網路發展和運營過程中發現和驗證大資料的規律及其與自然和社會活動之間的關係。
大資料與雲端計算的關係物聯網、雲端計算、移動網際網路、車聯網、手機、平板電腦、PC以及遍佈地球各個角落的各種各樣的感測器,無一不是資料來源或者承載的方式。
有些例子包括網路日誌,RFID,感測器網路,社會網路,社會資料(由於資料革命的社會),網際網路文字和檔案;網際網路搜尋索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他複雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視訊檔案;和大規模的電子商務。
弊端
雖然大資料的擁護者看到了使用大資料的巨大潛力,但也有隱私倡導者擔心,因為越來越多的人開始收集相關資料,無論是他們是否會故意透露這些資料或通過社交媒體張貼,甚至他們在不知不覺中通過分享自己的生活而公佈了一些具體的數字細節。
分析這些巨大的資料集會使我們的預測能力產生虛假的資訊,將導致作出許多重大和有害的錯誤決定。此外,資料被強大的人或機構濫用,自私的操縱議程達到他們想要的結果。
13科學應用
google流感趨勢(Google Flu Trends)利用搜尋關鍵詞預測禽流感的散佈。
統計學家內特.西爾弗(Nate Silver)利用大資料預測2012美國選舉結果。
梅西百貨的實時定價機制,根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。
Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟體來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定使用者進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。“SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。”Laney分析到。
PredPol Inc. 公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作,基於地震預測演算法的變體和犯罪資料來預測犯罪發生的機率,可以精確到500平方英尺的範圍內。在洛杉磯運用該演算法的地區,盜竊罪和暴力犯罪分佈下降了33%和21%。
American Express(美國運通,AmEx)和商業智慧。以往,AmEx只能實現事後諸葛式的報告和滯後的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。於是,AmEx開始構建真正能夠預測忠誠度的模型,基於歷史交易資料,用115個變數來進行分析預測。該公司表示,對於澳大利亞將於之後四個月中流失的客戶,已經能夠識別出其中的24%。
大資料實踐 基礎架構先行Express Scripts Holding Co.的產品製造。該公司發現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發了一個新產品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。
Infinity Property & Casualty Corp.的黑暗資料(dark data)。Laney對於黑暗資料的定義是,那些針對單一目標而收集的資料,通常用過之後就被歸檔閒置,其真正價值未能被充分挖掘。在特定情況下,這些資料可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過演算法挽回了1200萬美元的代位追償金額。
利用起網際網路大資料,對消費者的喜好進行判定。商戶可以為消費者定製相應的獨特的個性服務,甚至可以在一些商品或者服務上匹配使用者心情等等。商家還可以根據大資料為消費者提供其可能會喜好的特色產品,活動,小而美的小眾商品等等 。
地產業的升級改造,具有令人興奮的商業前景。一個Shopping Mall的投資往往高達數十億元,設想一下,如果智慧化升級能夠讓一個Shopping Mall的顧客數量和人均消費提升30%-50%,為此投入幾百萬元甚至上千萬元對於投資方來說非常划算,那麼僅僅針對國內Shopping Mall的智慧化升級就是一個千億元級別的市場。
經典大資料案例-沃爾瑪經典營銷:啤酒與尿布
“啤酒與尿布”的故事產生於20世紀90年代的美國沃爾瑪超市中,沃爾瑪的超市管理人員分析銷售資料時發現了一個令人難於理解的現象:在某些特定的情況下,“啤酒”與“尿布”兩件看上去毫無關係的商品會經常出現在同一個購物籃中,這種獨特的銷售現象引起了管理人員的注意,經過後續調查發現,這種現象出現在年輕的父親身上。
在美國有嬰兒的家庭中,一般是母親在家中照看嬰兒,年輕的父親前去超市購買尿布。父親在購買尿布的同時,往往會順便為自己購買啤酒,這樣就會出現啤酒與尿布這兩件看上去不相干的商品經常會出現在同一個購物籃的現象。如果這個年輕的父親在賣場只能買到兩件商品之一,則他很有可能會放棄購物而到另一家商店, 直到可以一次同時買到啤酒與尿布為止。沃爾瑪發現了這一獨特的現象,開始在賣場嘗試將啤酒與尿布擺放在相同的區域,讓年輕的父親可以同時找到這兩件商品,並很快地完成購物;而沃爾瑪超市也可以讓這些客戶一次購買兩件商品、而不是一件,從而獲得了很好的商品銷售收入,這就是“啤酒與尿布” 故事的由來。
當然“啤酒與尿布”的故事必須具有技術方面的支援。1993年美國學者Agrawal提出通過分析購物籃中的商品集合,從而找出商品之間關聯關係的關聯演算法,並根據商品之間的關係,找出客戶的購買行為。艾格拉沃從數學及計算機演算法角度提 出了商品關聯關係的計算方法——Aprior演算法。沃爾瑪從上個世紀 90 年代嘗試將 Aprior 算 法引入到 POS機資料分析中,並獲得了成功,於是產生了“啤酒與尿布”的故事。
IBM戰略
IBM的大資料戰略以其在2012年5月釋出智慧分析洞察“3A5步”動態路線圖作為基礎。所謂“3A5步”,指的是在“掌握資訊”(Align)的基礎上“獲取洞察”(Anticipate),進而採取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地“學習”(Learn)從每一次業務結果中獲得反饋,改善基於資訊的決策流程,從而實現“轉型”(Transform)。
大資料基於“3A5步”動態路線圖,IBM提出了“大資料平臺”架構。該平臺的四大核心能力包括Hadoop系統、流計算(StreamComputing)、資料倉儲(Data Warehouse)和資訊整合與治理(Information Integration and Governance)。
在大資料處理領域,IBM於2012年10月推出了IBMPureSystems專家整合系統的新成員——IBM PureData系統。這是IBM在資料處理領域釋出的首個整合系統產品系列。PureData系統具體包含三款產品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用於OLTP(聯機事務處理)、OLAP(聯機分析處理)和大資料分析操作。與此前釋出的IBMPureSystems系列產品一樣,IBM PureData系統提供內建的專業知識、源於設計的整合,以及在其整個生命週期中的簡化體驗。
斯隆數字巡天收集在其最初的幾個星期,就比在天文學的歷史上之前的2000年的收集了更多的資料。自那時以來,它已經積累了140兆兆 位元組的資訊。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上將獲得資料公佈,沃爾瑪每隔一小時處理超過100萬客戶的交易,錄入量資料庫估計超過2.5 PB相當於美國國會圖書館的書籍的167倍 。FACEBOOK從它的使用者群獲得並處理400億張照片。解碼最原始的人類基因組花費10年時間處理,如今可以在一個星期內實現。
“大資料”的影響,增加了對資訊管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟體智慧資料管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟體業務的快速。
大資料已經出現,因為我們生活在一個有更多資訊的社會中。有46億全球行動電話使用者有20億人訪問網際網路。基本上,人們比以往任何時候都與資料或資訊互動。 1990年至2005年,全球超過1億人進入中產階級,這意味著越來越多的人收益的這筆錢將反過來導致更多的資訊增長。思科公司預計,到2013年,在網際網路上流動的交通量將達到每年667艾位元組。
大資料,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大資料可以幫助人們開啟循“數”管理的模式,也是我們當下“大社會”的集中體現,三分技術,七分資料,得資料者得天下。
14商業模式
大資料實踐國內網路廣告投放正從傳統的面向群體的營銷轉向個性化營銷,從流量購買轉向人群購買。雖然市場大環境不好,但是具備資料探勘能力的公司卻倍受資本青睞。
163大資料是一個很好的視角和工具。從資本角度來看,什麼樣的公司有價值,什麼樣的公司沒有價值,從其擁有的資料規模、資料的活性和這家公司能運用、解釋資料的能力,就可以看出這家公司的核心競爭力。而這幾個能力正是資本關注的點。
移動網際網路與社交網路興起將大資料帶入新的征程,網際網路營銷將在行為分析的基礎上向個性化時代過渡。創業公司應用“大資料”告訴廣告商什麼是正確的時間,誰是正確的使用者,什麼是應該發表的正確內容等,這正好切中了廣告商的需求。
社交網路產生了海量使用者以及實時和完整的資料,同時社交網路也記錄了使用者群體的情緒,通過深入挖掘這些資料來了解使用者,然後將這些分析後的資料資訊推給需要的品牌商家或是微博營銷公司。
實際上,將使用者群精準細分,直接找到要找的使用者正是社交內容背後資料探勘所帶來的結果。而通過各種演算法實現的資料資訊交易,正是張文浩為自己的社交資料探勘公司設計的盈利模式。這家僅僅五六個人的小公司拿到了天使投資。未來的市場將更多地以人為中心,主動迎合使用者需求,前提就是要找到這部分人群。
在移動網際網路領域,公司從開發者角度找到資料探勘的方向,通過提供免費的技術服務,幫助開發者瞭解應用狀況。
15企業應對
國內的企業跟美國比較,有一個很重要的特性就是人口基數的區別,中國消費群體所產生的這種資料量,與國外相比不可同日而語。
伴隨著各種隨身裝置、物聯網和雲端計算雲端儲存等技術的發展,人和物的所有軌跡都可以被記錄。在移動網際網路的核心網路節點是人,不再是網頁。資料大爆炸下,怎樣挖掘這些資料,也面臨著技術與商業的雙重挑戰。
首先,如何將資料資訊與產品和人相結合,達到產品或服務優化是大資料商業模式延展上的挑戰之一。
其次,巧婦難為無米之炊,大資料的關鍵還是在於誰先擁有資料。
從市場角度來看,大資料還面臨其他因素的挑戰。
產業界對於大資料的熱情持續升溫的同時,資本也敏銳地發現了這一趨勢,並開始關注資料探勘和服務類公司。
最早提出“大資料”時代已經到來的機構是全球知名諮詢公司麥肯錫。麥肯錫在研究報告中指出,資料已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素;而人們對於海量資料的運用將預示著新一波生產率增長和消費者盈餘浪潮的到來。
大資料時代:如何節省儲存成本“麥肯錫的報告發布後,大資料迅速成為了計算機行業爭相傳誦的熱門概念,也引起了金融界的高度關注。”隨著網際網路技術的不斷髮展,資料本身是資產,這一點在業界已經形成共識。“如果說雲端計算為資料資產提供了保管、訪問的場所和渠道,那麼如何盤活資料資產,使其為國家治理、企業決策乃至個人生活服務,則是大資料的核心議題,也是雲端計算內在的靈魂和必然的升級方向。”
事實上,全球網際網路巨頭都已意識到了“大資料”時代,資料的重要意義。包括EMC、惠普、IBM、微軟在內的全球IT 巨頭紛紛通過收購“大資料”相關廠商來實現技術整合,亦可見其對“大資料”的重視。
“大資料”作為一個較新的概念,目前尚未直接以專有名詞被我國政府提出來給予政策支援。不過,在2011年12月8日工信部發布的物聯網“十二五”規劃上,把資訊處理技術作為4項關鍵技術創新工程之一被提出來,其中包括了海量資料儲存、資料探勘、影象視訊智慧分析,這都是大資料的重要組成部分。而另外3項關鍵技術創新工程,包括資訊感知技術、資訊傳輸技術、資訊保安技術,也都與“大資料”密切相關。
16投資熱點
大資料是繼雲端計算、物聯網之後IT產業又一次顛覆性的技術變革。雲端計算主要為資料資產提供了保管、訪問的場所和渠道,而資料才是真正有價值的資產。企業內部的經營交易資訊、物聯網世界中的商品物流資訊,網際網路世界中的人與人互動資訊、位置資訊等,其數量將遠遠超越現有企業IT架構和基礎設施的承載能力,實時性要求也將大大超越現有的計算能力。如何盤活這些資料資產,使其為國家治理、企業決策乃至個人生活服務,是大資料的核心議題,也是雲端計算內在的靈魂和必然的升級方向。
大資料時代網民和消費者的界限正在消弭,企業的疆界變得模糊,資料成為核心的資產,並將深刻影響企業的業務模式,甚至重構其文化和組織。因此,大資料對國家治理模式、對企業的決策、組織和業務流程、對個人生活方式都將產生巨大的影響。如果不能利用大資料更加貼近消費者、深刻理解需求、高效分析資訊並作出預判,所有傳統的產品公司都只能淪為新型使用者平臺級公司的附庸,其衰落不是管理能扭轉的。
大資料時代將引發新一輪資訊化投資和建設熱潮。據IDC預測,到2020年全球將總共擁有35ZB的資料量,而麥肯錫則預測未來大資料產品在三大行業的應用就將產生7千億美元的潛在市場,未來中國大資料產品的潛在市場規模有望達到1.57萬億元,給IT行業開拓了一個新的黃金時代。
當前還處在大資料時代的前夜,預計今明兩年將是大資料市場的培育期,2014年以後大資料產品將會形成業績。
17專家觀點
大資料時代,與其讓對你感興趣的人去搜尋你的隱私,就不如自曝隱私。當我在全球不同城市演講結束交換名片的時候,基本從來不發載有自己名字、電話、地址等基本資訊的名片,因為那根本用不著,也不符合大資料時代的精髓。所以我的名片簡單到只有一個名字和幾個二維碼,只要百度一下或者掃一掃二維碼,關於個人的資訊別人就會一覽無餘,包括在寫什麼文章、在哪裡演講等資訊……
不想說一個人若拒絕大資料就去失去生命這樣沉重的話題,但大資料確實在深刻改變著你和我的未來。
18戰略資源
2015年5月26日,中共貴州省委副書記、省政府省長陳敏爾在峰會上透露,國家在制定大資料國家戰略及行動計劃。貴州省將抓住和用好戰略機遇,深入挖掘大資料的商業價值、管理價值和社會價值。[2]
工信部資訊服務處處長李琰在論壇期間則表示,工信部將抓緊研究制定大資料發展的指導性檔案。下一步,工信部將和有關部門加強協同,積極營造良好的環境,推動應用和產業相互促進、良性發展,為我國大資料產業和大資料創新發展探索積累經驗。
19資料型別
大資料時代來了!不得不承認如今資料量的激增越來越明顯,各種各樣的資料鋪天蓋地的砸下來,企業選擇相應工具來儲存、分析與處理它們。從Excel、BI工具,到現在最新的視覺化資料分析工具大資料魔鏡,資料分析軟體進步越來越快,免費的大資料魔鏡已經可以達到500多種視覺化效果和實現資料共享。那麼在大資料時代中,都新出現了哪些資料型別呢?
1)過於一些記錄是以模擬形式方式存在的,或者以資料形式存在但是存貯在本地,不是公開資料資源,沒有開放給網際網路使用者,例如音樂、照片、視訊、監控錄影等影音資料。現在這些資料不但資料量巨大,並且共享到了網際網路上,面對所有網際網路使用者,其數量之大是前所未有。舉個例子,Facebook每天有18億張照片上傳或被傳播,形成了海量的資料。[3]
2)移動網際網路出現後,移動裝置的很多感測器收集了大量的使用者點選行為資料,已知IPHONE有3個感測器,三星有6個感測器。它們每天產生了大量的點選資料,這些資料被某些公司所有擁有,形成使用者大量行為資料。
3)電子地圖如高德、百度、Google地圖出現後,其產生了大量的資料流資料,這些資料不同於傳統資料,傳統資料代表一個屬性或一個度量值,但是這些地圖產生的流資料代表著一種行為、一種習慣,這些流資料經頻率分析後會產生巨大的商業價值。基於地圖產生的資料流是一種新型的資料型別,在過去是不存在的。
4)進入了社交網路的年代後,網際網路行為主要由使用者參與創造,大量的網際網路使用者創造出海量的社交行為資料,這些資料是過去未曾出現的。其揭示了人們行為特點和生活習慣。
5)電商戶崛起產來了大量網上交易資料,包含支付資料,查詢行為,物流運輸、購買喜好,點選順序,評價行為等,其是資訊流和資金流資料。
6)傳統的網際網路入口轉向搜尋引擎之後,使用者的搜尋行為和提問行為聚集了海量資料。單位儲存價格的下降也為儲存這些資料提供了經濟上的可能。
上面我們所指的大資料不同與過去傳統的資料,其產生方式、儲存載體、訪問方式、表現形式、來源特點等都同傳統資料不同。大資料更接近於某個群體行為資料,它是全面的資料、準確的資料、有價值的資料。這些新型別資料相信大家都很熟悉,它們已經比傳統資料型別更深入地走進了我們生活。
相關文章
- 到底什麼才是大資料技術?大資料的概念?大資料
- 大資料是什麼?IPIDEA解析大資料的基本概念大資料Idea
- 大資料是什麼?一文帶你瞭解大資料的概念!大資料
- 什麼是大資料?大資料能做什麼?大資料
- 大資料能做什麼,為什麼學大資料大資料
- 大資料是什麼?大資料的趨勢?大資料
- 大資料概念:史上最全大資料解析大資料
- 什麼是大資料?大資料開發是做什麼的?大資料
- 什麼是大資料?Python和大資料有什麼聯絡?大資料Python
- 到底什麼是大資料?新手學大資料的路徑是什麼?大資料
- 大資料教程系列之大資料概念大資料
- 什麼是大資料?大資料
- 什麼是大資料?大資料的產生、特點、用途大資料
- 淺析大資料 學習大資料後能做什麼大資料
- 大資料開發需要學習什麼?大資料平臺是什麼?大資料
- 大資料都學什麼?大資料
- 什麼是大資料安全?大資料
- 大資料分析是什麼大資料
- 大資料要學什麼?看看這份大資料課程大綱大資料
- 大資料和Hadoop什麼關係?為什麼大資料要學習Hadoop?大資料Hadoop
- 大資料前景如何?大資料開發工程師是什麼?大資料工程師
- 指路大資料 學大資料可以從事什麼職業大資料
- 大資料的作用是幹什麼大資料
- 什麼是資料湖屋Lakehouse? -DZone大資料大資料
- 資料智慧的未來,是不再有大資料的概念大資料
- 大資料為什麼這麼火?小白該如何去學習大資料大資料
- 什麼是大資料血緣?大資料
- 大資料主要學習什麼?大資料
- 什麼是大資料開發?大資料
- 為什麼學習大資料,大資料專家寫給大資料分析學習者的10個理由大資料
- 大資料時代之你不得不知道的大資料概念大資料
- 大資料開發是幹什麼的?大資料
- 大資料具體是幹什麼的大資料
- 大資料技術的原理是什麼大資料
- 什麼是大資料?大資料學習路線和就業方向大資料就業
- 大資料學習入門看什麼書?大資料新手怎麼入門?大資料
- 什麼是大資料視覺化大資料視覺化
- 大資料分析有什麼含義大資料