在各行各業中,越來越多的公司開始重視收集資料,並尋找創新方法來獲得真實可行的商業成果,並且願意投入大量時間和金錢來實現這一目標。
據IDC稱,資料和分析軟體及雲服務市場規模在 2021 年達到了 900 億美元,隨著企業繼續對人工智慧和機器學習 (AI/ML) 和現代資料計劃進行投資,預計到 2026 年將增長一倍以上。
然而,儘管投入了大量資金,資料專案往往收效甚微。麥肯錫最近對高階主要分析專案進行的一項調查發現,公司 80% 的時間都花在準備資料等重複性任務上,而這些任務產生的增值作用有限。此外,他們還發現,只有 10% 的公司認為他們已經控制住了這個問題。
專案為何失敗?
儘管增加了投資和關注,資料專案的失敗率為什麼仍然如此之高?
許多變數都會影響專案的成功,經常被提及的因素包括專案複雜性和對應的開發人才技術水平。企業也意識到,許多資料專案都失敗了,是因為他們難以在生產中大規模實施資料計劃。
這導致了 DataOps 的出現,成為克服大資料專案中常見挑戰的新框架。DataOps 是敏捷工程和 DevOps 最佳實踐在資料管理領域的應用,能幫助企業快速將新見解轉化為完全可操作的生產交付成果,從而從資料中釋放出商業價值。
資料排程的挑戰
大多數資料工作流都非常複雜,需要跨多個不同的應用程式、資料來源和基礎架構技術執行,並且這些技術需要協同工作。雖然目標是在生產中實現這些流程的自動化,但現實情況是,如果沒有強大的工作流排程平臺,在企業規模上交付這些專案可能會非常昂貴,而且通常需要花費大量時間進行手動工作。
2023年1月份,白鯨開源正式釋出了 Apache DolphinScheduler商業版Whalescheduler。相比於開源版本,商業版擁有更為專業的服務支援,感興趣的小夥伴可以看下這篇文章進一步瞭解:什麼是資料排程平臺 WhaleScheduler
資料工作流排程專案有四個關鍵階段:
-
資料引入:這涉及從傳統來源(如企業資源規劃 (ERP) 和客戶資源管理 (CRM) 解決方案、金融系統等)以及現代來源(如裝置、物聯網 (IoT) 感測器和社交媒體)收集資料。
-
資料儲存:儲存資料的方式和地點取決於永續性、資料集的相對價值、分析模型的重新整理率以及資料移動到處理階段的速度。
-
資料處理:處理階段也面臨許多挑戰,包括需要多少處理能力?是恆定的還是可變的?是定期的、事件驅動的還是臨時的?如何將成本降到最低?
-
洞察傳遞:這需要將資料輸出移動到分析系統。這一層同樣複雜,有越來越多的工具代表資料管道中的最後一英里。
隨著新資料和雲技術的頻繁推出,公司不斷重新評估其技術堆疊。這種不斷髮展的創新帶來了壓力和客戶流失,這可能是一個挑戰,因為公司需要輕鬆採用新技術並將其擴充套件到生產中。
最終,如果新的資料分析服務沒有大規模投入生產,公司就無法獲得可操作的見解或實現價值。
實現規模生產
在生產中成功大規模執行業務關鍵型工作流程並非偶然。正確的工作流程排程平臺可以幫助您簡化資料管道並獲得所需的可行見解。
考慮到這一點,以下是您在工作流排程平臺中需要尋找的八個基本功能:
-
支援異構工作流:各公司正在迅速轉向雲,在可預見的未來,工作流將跨越高度複雜的混合環境。對於許多公司而言,這將包括支援跨資料中心和多個私有云和/或公共雲的大型機和分散式系統。Apache DolphinScheduler 是一個強大的開源分散式工作流排程平臺,能夠處理多種應用程式和基礎設施的多樣性,提供一致的自動化策略。
-
SLA 管理:業務工作流(從預測風險的 ML 模型到財務結算和付款結算)都有完成 SLA,這些 SLA 有時受監管機構制定的準則的約束。您的排程平臺必須能夠理解並通知您複雜工作流中的任務失敗和延遲,並且需要能夠將問題對映到更廣泛的業務影響。
-
錯誤處理和通知:在生產中執行時,即使是設計得最好的工作流程也會出現故障和延遲,而海豚排程恰恰有非常完善的告警機制,並支援一些主流的平臺
-
自我修復和補救:響應業務工作流中的作業故障時,平臺會採取糾正措施,例如重新啟動作業、刪除檔案或重新整理快取或臨時表。排程平臺應允許自動化工程師配置此類操作,以便在下次發生相同問題時自動執行。
-
端到端可視性:工作流跨混合技術棧執行互連的業務流程。排程平臺應該能夠清晰地顯示工作流的沿襲。這對於幫助工程師瞭解應用程式與其支援的業務流程之間的關係至關重要。這對於變更管理也很重要。在進行變更時,瞭解流程上游和下游發生的情況至關重要。
-
自助式使用者體驗:工作流排程是一項團隊活動,涉及許多利益相關者,例如資料團隊、開發人員、運營、業務流程所有者等。每個團隊對於如何與排程工具互動都有不同的用例和偏好。
-
生產標準:在生產中執行工作流需要遵守標準,這意味著使用正確的命名約定、錯誤處理模式等。您的排程平臺應該有一個機制,提供一種非常簡單的方法來定義這些標準,並在使用者構建工作流時引導遵循適當的標準。
-
支援 DevOps 實踐:隨著公司採用 DevOps 實踐,例如持續整合和持續部署 (CI/CD) 管道、工作流開發、修改甚至工作流基礎設施部署,您的排程平臺應該能夠適應現代釋出實踐。
對資料的需求正在上升,並且沒有減弱的跡象,這意味著擁有儲存、處理和運算元據的能力對於任何企業的成功仍然至關重要。DataOps 實踐與強大的排程功能相結合,可以幫助企業排程資料管道、簡化資料交付流程並改善業務成果。
WhaleStudio是白鯨開源根據全球領先的DataOps理念打造的新一代全棧資料整合排程產品,具有分散式、雲原生並帶有強大視覺化介面的特點,將全球領先的排程開發元件Apache DolphinScheduler與資料整合元件Apache SeaTunnel整合在一起提供給全球使用者領先的完整解決方案,支援170+資料來源整合並全面支援信創環境,目前已服務於6000+企業。
本文來源於:https://www.datanami.com/2024/05/15/unlock-your-data-initiatives-with-dataops/ 如有侵權,請聯絡刪除
本文由 白鯨開源 提供釋出支援!