在如此多關於大資料的炒作下,IT管理者很難知道該如何挖掘大資料的潛力。Gartner指出關於大資料的五大誤區,以幫助IT管理者制定他們的資訊基礎設施戰略。
Gartner研究總監Alexander Linden表示:“大資料提供了巨大的機會,但也帶來了更大的挑戰。海量的資料並沒有解決資料固有的問題。IT管理者需要破除各種炒作,根據已知的事實和業務驅動的結果指導行動。”
誤區1:在採用大資料方面其他人都比我超前
人們對於大資料技術和服務的興趣達到了前所未有的高度,有73%的受訪企業已經投資或者計劃投資大資料。但是大多數企業機構仍然在採用大資料的初期階段,只有13%的受訪者已經部署了大資料解決方案(見圖1)。
圖1、2013年和2014年大資料採用的階段
註釋:Gartner向每位受訪者提問,“以下哪5個階段可以最好地描述你企業機構採用大資料的階段?”
2014年n = 302,2013年n = 720。來源:Gartner(2014年9月)
企業結構面臨最大的挑戰是確定如何從大資料中獲取價值,以及確定應該從哪裡開始。許多企業機構卡在試點階段,因為他們沒有將技術與業務流程或者具體的使用例項聯絡起來。
誤區2:我們有這麼多的資料,我們並不需要擔心一個小小的資料缺陷
IT管理者認為,目前企業管理如此多的資料使得單個的資料質量問題變得微不足道,因為“大資料法則”。這個觀點認為,單個資料質量缺陷並不影響整個資料分析的結果,因為每個缺陷只是企業機構內海量資料非常小的一部分。
Gartner副總裁Ted Friedman認為:“事實上,儘管單個缺陷對於整個資料集的影響要比資料量少的時候小一些,但是因為資料更多了所有缺陷也就更多了。因此,糟糕的資料質量對於整個資料集的影響還是一樣的。除此之外企業機構在大資料背景下使用的大多數資料都是來自於外部的,或者是未知結構和未知來源的。這意味著出現資料質量問題的可能性要比以前更高,因此資料質量實際上在大資料背景下變得更為重要了。”
誤區3:大資料繼續將消除對大資料整合的需求
一般觀點認為,大資料技術——尤其是通過在用模式方法處理資訊的潛力——將使得企業機構要使用多種資料模型來讀取相同的資料來源。很多人相信這種靈活性將讓終端使用者確定如何按需地將各種資料集進行轉譯。他們認為,這也將提供滿足單個使用者需求的資料訪問。
在現實中,大多數資訊使用者重度依賴於“在寫模式”,在這種場景下資料被描述、內容被預先描述,因此關於資料完整性以及與場景的相關性已經達成了統一。
誤區4:為高階分析使用資料倉儲是沒有意義的
很多資訊管理的領導者認為,構建一個資料倉儲是消耗時間且沒有意義的,因為高階分析使用新型的資料而不僅僅是資料倉儲。
現實是,很多高階分析專案在分析過程中使用的正是資料倉儲。在其他一些情況下,資訊管理人必須提煉作為大資料一部分的新資料型別,使其適合於分析。他們需要確定哪些資料是相關的,如何聚合這些資料,以及資料質量的等級,而且這種資料提煉可能是發生在很多地方的,不僅僅是資料庫。
誤區5:資料湖將取代資料倉儲
很多廠商將資料湖定義為用於分析各種來源的原始格式資料的企業資料管理平臺。
現實是,廠商將資料湖定位為資料倉儲的替代品或者作為客戶分析技術設施關鍵要素是容易引發誤導的。資料湖的基礎技術缺乏已有資料倉儲技術功能特性的成熟型和廣度。Gartner研究總監Nick Heudecker表示:“資料倉儲已經具有支援整個組織上下各種使用者的能力。資訊管理者沒必要等著資料湖迎頭趕上。”