擁抱開源DevOps引領大資料生態系統

boxti發表於2017-07-04

為了開展開源戰略,基於大資料生態系統元件的應用程式必須加強,才能在生產中執行。 DevOps可能是其中的重要組成部分。

使用者一直希望減少對供應商的依賴。但是,當他們瞭解當今大資料生態系統的複雜環境時,他們至少在某種程度上將承擔一定的責任。

新風格的資料工程要求對DevOps進行整體的調整,這就是敏捷性方法的擴充套件,需要開發人員對創新應用在生產中的表現承擔更多的責任。同時,工程師需要以更快的速度學習新的軟體。

許多早期採用者不得不建立基於MapReduce的Hadoop應用程式,只能使用Spark處理引擎重新啟動它們。

如今有各種開源產品用於分析,包括Hadoop SQL查詢工具、機器學習和其他功能。開源資料流媒體空間就有一些例子,隨著一系列新的實時系統不斷進行批處理,這些資料流空間正在不斷髮展。

在流媒體中,分析工具層出不窮。先是早期的競爭者Apache Storm,接著又出現Apache Spark和Apache Flink,而且這一切都發生在短短的幾年之內。

Hadoop聯合創始人、Cloudera首席架構師Doug Cutting表示,這是現代資料工程的本質,今天人們必須做好試用軟體元件的準備。

事實上,很難找到與多個流媒體架構合作的商店,而且其中涉及到很多在職學習。隨著Spark通過最近宣佈的Drizzle外掛在時間流式中新增記錄,就需要更多的學習。

資料工程師正在研究元件如何以不同的組合形式工作,這個過程是從概念驗證轉向生產的重要環節。終端使用者和供應商都屬於這個環節的一部分。

搞清楚你想要什麼

回想一下:當供應商們作為唯一創新來源的日子裡,使用者往往處於被動地位。供應商仍然可能在大資料應用實施方面發揮很大的作用,但被動的使用者就要承受更大的風險。

事實上,產品釋出時間中至少有一些滯後時間與準備軟體的供應商有關。開源大資料應用程式從概念驗證到生產投入的艱難過程並非巧合。

但是,隨著資料商店開始對新的開源應用程式進行變革,需要大量的創新。

為了繼續推進大資料工程,團隊需要非常認真地追求DevOps的信條,或者稱之為DataOps,尤其是要求資料工程師和IT架構師負責將創新思想運用到生產過程中。

本文轉自d1net(轉載)


相關文章