我們已經看到了許多這樣的案例出現企業願意分享他們在大資料使用上取得的成就。在IT行業任何的正規化轉變(paradigmshift),一個特定的主題吸引新聞媒體、投資者和創新人才的大量關注,這個轉變需求很強的商業價格的支援。這個典型的案例是:客戶服務、分散式計算和以服務為導向的架構與語言,例如:JAVA.
我們也看到了一個有益的生態系統的出現,迅速的讚美或擴充套件能力的核心支援技術,在大資料案例中,大資料生態系統已經迅速集中一批技術提供者,例如:Hadoop,Cassandra,Accumulo,Oracle,IBM.
那麼在大資料的生態系統中我可以看到哪些趨勢會出現?
- 在hadoop上對於sql擴充套件性和一致性
有一大批的技術公司努力構建一種no-sql技術,從而為大資料提供解決方案例如:hadoop。但是對於sql語言支援的深度與廣度各不相同,然而使用sql專業分析人員可以使用這些優點從而很好的通過sql語言來操作大資料。目前案例包括:Hadapt,Impala,TeradataAsterandEMCGreenplumsPivotalHD.
(譯者注:由於目前的大資料儲存都不是基於關係型資料庫的,所以傳統通過sql語言來運算元據的方式無法直接使用,例如:對於hadoop儲存的資料是無法直接通過sql來查詢的。因而需要把傳統的sql語言進行中間轉換從而進行操作,例如:hadoop中hive,就是相當於將sql轉換成MapReduce,從而去讀取、操作hadoop上的資料。)
- 對於結構化、非結構化與半結構化資料的統一支援
隨時非結構化資料的增長,IDC公司預測了資料的數量,大多資料的將以非結構化的形式儲存,每天將增長40%-50%.到2020年,總體的資料量將達到40ZB.非結構化的資料主要來源於:郵件、論壇、部落格、社交網路、POS系統和機器生成的資料。為了獲取和分析這些大資料量的資料,創新人員必須擴充套件他們的大資料解決方案,而不能僅僅適用於其中一個。
- 優化檢索
從海量的資料中發現之前使用者的真正搜尋需要,在之前就像大海撈針基本上不可能的。但是隨時時間發展,越來越多把大資料的解決方案融入到檢索支援中。在這方面中領先者有:LucidWorks,IBM,Oracle(其通過收購Endeca)AutonomyandMarkLogic。其中LucidWorks結合了一個開源的堆Lucene和Solr,Hadoop,Mahout和NLP。
- ETL的擴充套件與支援
許多人都認為hadoop最開始的使用安全是用於ETL因為其批處理的功能。然而,如果你看到基於etl解決方案進行與維護的複雜hadoop平臺的所有的基礎設施,你可以會使用其它的純情etl工具(Informatica,Talend,Syncsort,CloverETL)來解決。多年來這些公司這些公司努力在建立最值組合的ETL解決方案,現在更多我們把其稱作為:資料整合解決方案。
純粹的ETL提供商正努力為大資料提供解決方案。這些支援不難包括:ETL,而且包括ELT那些從hadoop內部轉化為hadoop。這會使公司使用構建這樣的環境,使用純ETL的解決方案及hadoop本身強大的功能。隨著時間的發展,這些純ELT的公司起的支援的大資料的解決方案範圍包括從:NewSQL與NoSQL。
另外,我期望許多的大資料解決方案公司可以嵌入對於ETL與ELT的支援,就像許多傳統的資料庫供應商已經通過嵌入或收購ETL解決方案。
- 大資料運動趨穩
在我之前的文章寫到,以Apache為開源框架的hadoop已被使用使用在以批處理為導向海量的分散式環境中,特別是以分析為背景的情況下。隨時企業開始關注如何支配和利用海量的資料資源用於實時決策,我們預計會對於’大資料運動’影響和增長有重要幫忙。這個“落地”代表的實時的資訊流用於處理大資料流,在各個行業:包括資本市場、醫療7、能源和社會化媒體。
- 增加資料探勘和分析技術
在大資料領域的行業領域者知道需要在他們平臺上擴充套件在資料分析與統計功能的需求。除了一般的分析功能還增加非常的資料探勘功能。TeradataAste包括很多的分析功能,具體包括支援統計、文字挖掘、影像、情感分析等。其它的公司例如IBMNetezza已經加入了對於R語言的支援,可以支援R的各類包,例如:並行運算演算法包、矩陣相關包。未來我們可以看到大資料解決方案將會不斷的大量增加這種功能。
- 從R語言中獲利
毫無疑問R語言將會是越來流行的開源統計語言。RevolutionAnalytics公司在開發用於“工業”使用的R版本上,效能上有顯著的增強和滿足其它企業的特徵。更進一下,他們已經開發出了可以適用於hadoop、PureData的R擴充套件包。大學裡也大量開設的R語言方面的課程,讓更多的學生擁有使用R語言的能力,也讓他們具備在處理複雜的統計分析方面的能力。可以預見R會被包括在許多大資料的解決方案中,而且會顯著改進該語言從而讓其有更好的效能。
隨著大資料生態系統的發展,相關的產業必然伴隨其發展。在今天的市場競爭環境中,那些實施以資料驅動戰略的公司將在競爭中取得優勢。
via:http://www.itongji.cn/article/060321612013.html