在過去的十年裡,大資料的崛起讓一大批供應商嘗試利用大資料的優勢研發新的資料分析工具。
在固有分析工具進行更新換代的同時,新興分析工具則宣稱它們才是 “潮流新品”,廣大使用者不清楚市面上有哪些分析工具。為機構資源尋找合適投資的分析工具就像盲人瞎馬,是個高風險的賭博。
假設你是一個擁有大量資訊的資訊總監,並且需要解決一個業務問題。要從分析工具琳琅滿目的分析市場中找出最適合公司的工具組合看似很難,其實不然。分析工具主要有兩種:資料儲存和建模工具。廣義的資料儲存是:儲存資料以供未來使用的任意硬體和軟體組合。它們也許各有特點,但通常擁有資料儲存和檢索的基本功能。建模工具由硬體和軟體組成,對資料進行整合以得出規律。傳統開發人員首先專注於資料儲存,資料學家則利用建模工具進行資料分析和資料探勘。要根據自身定位找出適合的工具就要從這兩種分析工具中挑選出合適的組合。這兩種分析工具可細分為七個不同的類別,每一類都有它獨特的優勢和強大功能。要解決你公司的問題,就要對這些工具進行正確分組。
分析工具有:
- 資料儲存
- 傳統的關聯式資料庫管理系統(RDBMS): 正如它的字面意思,它代表人們在過去 30 年裡所指的資料庫。儘管這些資料管理系統的資料處理量比不上一些新型技術,但在所有的分析工具中,它們擁有最完善的功能集,資料分析最透徹並且涉及的知識最規範。
超級英雄的首位英雄: 美國隊長,當之無愧的領導分析工具,雖然相比起其它分析工具來略顯過時,但 RDBMS 仍然擁有強大功能,並能出色完成任務。
適用情況: 需要解決的問題並不是最麻煩的,但你需要一些成熟可靠的分析工具,讓員工能儘快上手。
- 非傳統資料庫(DB): 這組資料庫包含眾多非 SQL 語言(代表“不使用 SQL 語言”或”不僅使用 SQL 語言”)的新型分析工具。這些工具除了運用關聯式資料庫的基礎——關係模型外,還能用於保持中小型資料(即以兆位元組或千兆位元組計算)流暢載入,並且在使用得當的情況下,能載入以兆兆位元組或帕特位元組計算的資料。這類資料庫通常是跨硬體的原始碼開放軟體工具;其供應商通過出售包含產品支援的企業特別版軟體獲利。
超級英雄代表人物 : 黑寡婦,她引用卓越的處理技術處理大型資料,是該方面的專家。同時,也能實現不同功能間的快速轉換。
適用情況: 希望運用一個新型的框架擴大資料規模,想要引用一種專門處理某類資料問題的技術,同時想嘗試引用新技術來博取大眾眼球。
- 大規模並行處理(MPP)關聯式資料庫: 如果把傳統的 RDBMS 比作可靠的中型轎車,那麼 MPP 關聯式資料庫就是汽車界的布加迪威龍(Bugatti Veyrons):擁有最強勁的馬力和極高的價格。這類資料庫與傳統的 RDBMS 組一樣,都以關係模型為基礎,卻包含卓越的硬體和軟體工程,效能和容量大幅提升。因為擁有該項技術,通常供應商只出售該資料庫就能處理各類問題,因此其安裝及維護費用可能十分昂貴。
超級英雄代表人物 : 鋼鐵俠,本來是普通的東西(普通人,RDBMS),注入大量的資金和技術,就成為英雄(身穿鐵甲的傢伙,MPP 關聯式資料庫)。
適用情況: 與供應商關係良好,願意付出一大筆資金,且不希望對資料儲存的方式進行任何重大改變。
- Hadoop 和 NoSQL:Hadoop 是市面上能買到的擁有最大資料儲存容量的資料庫。基於雅虎網站(Yahoo!)和谷歌網站(Google)的搜尋結果,當需要處理最大容量的資訊時,就要求助於 Hadoop。這方面的產品通常包含了與資料錄入,資料管理和資料傳輸有關的應用程式的整個計算機系統。
超級英雄代表人物 : 綠巨人,雖然不能盡善盡美,但如果需要大容量、高效能,他是不二之選。
適用情況: 需要儲存和處理各類所有資料。
- 建模工具
- 成熟的建模工具: 這類建模工具旨在利用統計學和資料探勘方法處理資料,從而得出分析洞見。最初的使用者是科學家和統計學家,現在使用者群已增至包含企業使用者。這些工具可以處理小型資料集,但通常可以擴大使用範圍,或用來控制更強大的新一代平臺。
超級英雄代表人物:20 世紀 60 年代的蝙蝠俠——不可否認他有點落後於時代,但他擁有幾乎每一項你所能想到的功用。
適用情況: 需要使用一種功能強大且為每一個員工所熟悉的技術。例如,你的團隊有多名能快速利用 Pandas 資料包進行資料分析的 Python 開發人員,或者擁有一支完全掌握內外關鍵流程、經驗豐富的 SAS 建模團隊。
- 平臺: 大資料平臺是定義廣泛的應用和基礎設施類別,旨在提供非常特定的功能。由於以具成本效益的方式維護大資料環境非常困難,大資料平臺大受歡迎。在本情況中,平臺精簡必要的資料操作,讓使用者專注於“企業任務”。這些解決方案通常包含資料整合、分析和視覺化。
超級英雄代表人物:X 教授——他擁有超乎想象的強大功能,豐富的感應能力,但只限於在特定範圍內。
適用情況: 需要解決的問題極為清晰,希望運用一種功能齊全的高超技術為特定問題提供最優解決方案。
- 新一代建模工具: 新一代的建模工具興起於上一年代末,是專門為並行資料處理而開發的。雖然這類工具仍處於新興階段,但正努力開發能對大規模資料進行接近實時分析的技術(達到如分析小型資料一樣簡單的地步),致力於取代已經成熟的建模工具。
超級英雄代表人物:21 世紀的蝙蝠俠——同樣是一種建模工具,但擁有更新、更強大的功能,甚至達到令人敬畏的技術高度。當然,由於他更現實,因此功能較為專一。
適用情況: 面對前所未見的任務,希望有最先進的技術協助。
自 techcrunch中文