一文了解開放資料架構和時間序列資料

qing_yun發表於2023-10-20

開放資料架構,簡單來說它與供應商鎖定的封閉系統環境截然相反。根據開放資料架構原則設計的系統支援不同應用程式之間的無縫資料流動,即使它們看似毫無關聯,因為所有資料檔案格式和標準都符合相同的要求。使用這種模式,開發人員和利益相關者就有機會選擇最適合每個工作流程環節的工具。

開放式資料架構消除了“孤島”現象,使資料團隊能夠就相同的資料開展協作,提供可靠的資料並輕鬆管理資料。這種架構對於大量資料(如時間序列資料)具有優勢。

時間序列資料是帶有時間戳的資料。其來源多種多樣,包括製造業、DevOps 監控、金融科技、農業科技、應用監控等等。時間序列資料的一些常見例子包括股票價格、物聯網資料(風速、壓力、溫度、溼度等)、可觀測資料(指標、日誌和跟蹤)、網路安全和伺服器健康資料。

考慮一個從風力發電機中提取的資料集,在一個開放資料架構中。資料科學家團隊對資料集進行分析,並使用機器學習 (ML) 工具進行預測分析。與此同時,工廠操作員在實時儀表板上監控模型的效能和風車資料,以確保運營效率,這些風車資料很可能是時間序列資料。

構建開放資料系統

乍一看,封閉系統似乎很有吸引力。供應商能很好地提供您可能需要的所有工具(甚至一些您不需要的工具)。但隨著時間的推移,限制也隨之出現。在封閉系統中,新增新技術並不容易,因為架構已被鎖定,如果供應商不新增新功能,那麼唯一的選擇就是在限制範圍內生存,或者考慮新的供應商或開放式資料系統。

雖然與前者相比,開放式資料架構令人生畏,但在入門時還是有跡可循的,應用程式和工具之間無縫轉換所需的元件已經存在。已經有技術基礎設施對資料進行格式化和標準化,以滿足互操作性、可擴充套件性和整合性的基本要求。

時間序列資料與開放資料架構的交叉點

在確定哪種系統最合適時,對專案範圍的深刻理解非常重要。例如,為時間序列構建開放資料設計本身就存在挑戰。時間序列攝取的速度和速度以及儲存的大量資料都需要一個專門針對時間序列的解決方案。瞭解開放式資料架構及其與時間序列資料的交叉點,不僅可以為更順暢的流程鋪平道路,還能為開發人員團隊帶來無數好處。

互操作性

互操作性可以說是開放資料架構最重要的方面。互操作性是指應用程式、裝置和產品之間的無縫資料交換。Apache基金會旨在提供標準化資料格式和傳輸協議,以促進開放資料工具之間的互操作性。

Arrow 和 Parquet 是 Apache 的開源列格式工具。Arrow 是一個定義記憶體列式資料的框架,每種處理語言都可以使用。它的目標是成為與語言無關的標準,幫助促進列式儲存資料的互操作性。列式儲存按列而不是行來組織資料。這種儲存組織方式有利於時間序列資料,因為這種資料型別生成的行數通常多於列數。列式組織允許 Parquet 對每一列獨立應用壓縮和編碼,從而大大降低了儲存要求。

資料收集

收集時間序列資料比將資料傳送到資料庫更復雜。確定資料來源(可能包括感測器資料、網路事件,甚至是向雲端傳送資料的邊緣時間序列資料庫)只是整個過程的一部分。確定這一過程所涉及的流程和機制也至關重要。其中可能包括清理、彙總和格式化資料,以確保資料在到達最終儲存位置之前的質量和一致性。

例如,Telegraf 是一個開放原始碼資料收集代理,可促進多種來源的資料收集。Telegraf 基於外掛,有 300 多個外掛,而且是開源的,因此任何開發人員都可以編寫定製外掛(如果還沒有的話)。

儲存

安全、可擴充套件、專用的時間序列資料庫是儲存時間序列資料的最佳場所。例如,基於 Apache 開放資料系統構建的資料庫支援大規模儲存。Arrow 和 Parquet 可與其他分析、機器學習和轉換工具整合,從而帶來更多價值。採用開放資料架構的時間序列資料庫旨在最佳化時間戳資料。這種方法專為時間序列資料定製,在保持完整性的同時減少了儲存空間佔用和要求。

資料視覺化

資料視覺化可幫助使用者瞭解隱藏在資料中的模式、趨勢和見解。開放資料生態系統中常見的視覺化工具包括 Grafana、Tableau 和 Apache Superset。這些開放資料工具通常具有廣泛的相容性,允許監控時間序列資料的開發人員實時跟蹤並更好地理解時間序列資料。一些公司利用開放時間序列資料架構來監控、預警和視覺化其時間序列資料。這些公司還將時間序列資料庫作為其架構的一部分,但在其餘技術堆疊方面則各不相同。

小結

使用開放式資料系統意味著可以從互操作性和工具組合的自由中獲益,為每個獨特的使用案例建立定製解決方案。資料收集、儲存、視覺化和資料分析是組成開放資料架構的拼圖。

作者 Anais Dotis-Georgiou 是 InfluxData 的開發者

來自 “ https://www.datanami.com/2023/10/19/understanding- ”,原文連結:http://blog.itpub.net/69925873/viewspace-2990156/,如需轉載,請註明出處,否則將追究法律責任。

相關文章