“大資料”這個提法通常指的是數量、速度和種類都會急劇倍增的資料。根據 Enterprise Strategy 機構最新研究,大資料分析平臺正在模仿這種定義:供應商產品釋出數量在增長,產品增強功能迅速翻倍,現在有多種部署選擇支援。
Julie Lockner 是 ESG 的一位高階分析師,也是《穩固的大資料分析平臺》一書的作者,她說企業在考慮他們如何把大資料技術整合到他們的架構中——尤其是當它變得價格可負擔,並且可擴充套件時。
部分苦惱源自於大資料技術和術語的流動性,這帶來了市場混亂的糾結。Lockner 把她的研究命名為“市場前景報告 101”,她相信這種糾結可以通過內部評估和培訓來撫平。
這麼做意味著從頭開始,也就是從定義開始。
大資料有很多選擇
根據 ESG 的報告:“大資料分析專案如雨後春筍般冒了出來,有的甚至還沒有理解清楚大資料真正的含義就開始做了。”
根據個人對這一定義理解的差異,這一術語的含義有可能擴大或者縮小。事實上,它的定義已經變得很寬泛了,ESG 給出了他們自己的解釋:“超出正常處理能力邊界和大小的資料集,迫使你採取非傳統的方法。”
Lockner 表示,問題是資料量將會發展到 TB 級,當前系統上會開始出現“應力性骨折”,常規用途的技術在大資料以及大資料分析面前將不能保證成本高效的方法。那才是企業應該考慮擴充套件他們資料中心的時候。
此前,許多大型跨國公司都在做這樣的專案,但現在有更多可以支付得起的選擇。不管是預算,還是技能集。”目前,企業都使用了大量大資料部署方案,有定製開發的方法,大規模並行處理資料庫,雲端計算服務或者一些可用工具的組合。開源 Apache Hadoop 專案的加入更激起了持續增長的興趣,該開源專案支援大資料集分散式處理。
Lockner 評價說:“我不記得自 HTML 誕生之後還有另外哪一種技術可以產生這麼大的影響了。”
大資料開始了
企業要探索在大資料分析平臺上進行投資,需要審查供應商對大資料的定義,並瞭解他們的產品與大資料的相關性,這是一個很好的開始點。Lockner 說:“當你與供應商交流時,要弄清楚他們產品定位以及能解決的問題是什麼?”
例如,EMC 公司有多款大資料產品,比如 Greenplum 資料庫軟體,Greenplum 資料計算裝置和 Isilon。這三款產品處理的都是不同型別問題。Lockner 說:“你必須真正把洋蔥層層剝開,並做一些功課。”
首先,Lockner 推薦客戶依靠他們有良好關係的供應商,要求檢視他們大資料分析平臺的演示。這些都是免費資訊。因為這個企業中的人們會盡力理解他們想做的事,他們應該可以對供應商施加壓力。
她推薦客戶也要學習針對他們業界其它廠商的案例使用情況。這種資訊可以幫助看清楚哪些供應商是真正的意見領袖,哪些不是。
企業應該依靠他們內部的 IT 部門和他們更有技術悟性的員工,來幫助做一些功課。Lockner 說:“通常情況下,一些實驗室專案之類的會研究新技術,而且如果企業可以找到那些專家組並與他們集思廣益討論如何做的話,那是一個相當不錯的開始。”
但是要真正剝離這些層次,企業應該判斷什麼是真正的需求,供應商的產品如何能滿足這些需求。據該報告認為,這意味著要估量清楚內部可用技能,資料將從哪裡來,分析行為需要多快完成,哪些內容需要與新平臺整合。Lockner 表示:“理解業務需求比擁有出色的技術更重要。”
作者:Nicole Laskowski
自:36大資料