一文了解開放資料架構和時間序列資料
開放資料架構,簡單來說它與供應商鎖定的封閉系統環境截然相反。根據開放資料架構原則設計的系統支援不同應用程式之間的無縫資料流動,即使它們看似毫無關聯,因為所有資料檔案格式和標準都符合相同的要求。使用這種模式,開發人員和利益相關者就有機會選擇最適合每個工作流程環節的工具。
開放式資料架構消除了“孤島”現象,使資料團隊能夠就相同的資料開展協作,提供可靠的資料並輕鬆管理資料。這種架構對於大量資料(如時間序列資料)具有優勢。
時間序列資料是帶有時間戳的資料。其來源多種多樣,包括製造業、DevOps 監控、金融科技、農業科技、應用監控等等。時間序列資料的一些常見例子包括股票價格、物聯網資料(風速、壓力、溫度、溼度等)、可觀測資料(指標、日誌和跟蹤)、網路安全和伺服器健康資料。
考慮一個從風力發電機中提取的資料集,在一個開放資料架構中。資料科學家團隊對資料集進行分析,並使用機器學習 (ML) 工具進行預測分析。與此同時,工廠操作員在實時儀表板上監控模型的效能和風車資料,以確保運營效率,這些風車資料很可能是時間序列資料。
構建開放資料系統
乍一看,封閉系統似乎很有吸引力。供應商能很好地提供您可能需要的所有工具(甚至一些您不需要的工具)。但隨著時間的推移,限制也隨之出現。在封閉系統中,新增新技術並不容易,因為架構已被鎖定,如果供應商不新增新功能,那麼唯一的選擇就是在限制範圍內生存,或者考慮新的供應商或開放式資料系統。
雖然與前者相比,開放式資料架構令人生畏,但在入門時還是有跡可循的,應用程式和工具之間無縫轉換所需的元件已經存在。已經有技術基礎設施對資料進行格式化和標準化,以滿足互操作性、可擴充套件性和整合性的基本要求。
時間序列資料與開放資料架構的交叉點
在確定哪種系統最合適時,對專案範圍的深刻理解非常重要。例如,為時間序列構建開放資料設計本身就存在挑戰。時間序列攝取的速度和速度以及儲存的大量資料都需要一個專門針對時間序列的解決方案。瞭解開放式資料架構及其與時間序列資料的交叉點,不僅可以為更順暢的流程鋪平道路,還能為開發人員團隊帶來無數好處。
互操作性
互操作性可以說是開放資料架構最重要的方面。互操作性是指應用程式、裝置和產品之間的無縫資料交換。Apache基金會旨在提供標準化資料格式和傳輸協議,以促進開放資料工具之間的互操作性。
Arrow 和 Parquet 是 Apache 的開源列格式工具。Arrow 是一個定義記憶體列式資料的框架,每種處理語言都可以使用。它的目標是成為與語言無關的標準,幫助促進列式儲存資料的互操作性。列式儲存按列而不是行來組織資料。這種儲存組織方式有利於時間序列資料,因為這種資料型別生成的行數通常多於列數。列式組織允許 Parquet 對每一列獨立應用壓縮和編碼,從而大大降低了儲存要求。
資料收集
收集時間序列資料比將資料傳送到資料庫更復雜。確定資料來源(可能包括感測器資料、網路事件,甚至是向雲端傳送資料的邊緣時間序列資料庫)只是整個過程的一部分。確定這一過程所涉及的流程和機制也至關重要。其中可能包括清理、彙總和格式化資料,以確保資料在到達最終儲存位置之前的質量和一致性。
例如,Telegraf 是一個開放原始碼資料收集代理,可促進多種來源的資料收集。Telegraf 基於外掛,有 300 多個外掛,而且是開源的,因此任何開發人員都可以編寫定製外掛(如果還沒有的話)。
儲存
安全、可擴充套件、專用的時間序列資料庫是儲存時間序列資料的最佳場所。例如,基於 Apache 開放資料系統構建的資料庫支援大規模儲存。Arrow 和 Parquet 可與其他分析、機器學習和轉換工具整合,從而帶來更多價值。採用開放資料架構的時間序列資料庫旨在最佳化時間戳資料。這種方法專為時間序列資料定製,在保持完整性的同時減少了儲存空間佔用和要求。
資料視覺化
資料視覺化可幫助使用者瞭解隱藏在資料中的模式、趨勢和見解。開放資料生態系統中常見的視覺化工具包括 Grafana、Tableau 和 Apache Superset。這些開放資料工具通常具有廣泛的相容性,允許監控時間序列資料的開發人員實時跟蹤並更好地理解時間序列資料。一些公司利用開放時間序列資料架構來監控、預警和視覺化其時間序列資料。這些公司還將時間序列資料庫作為其架構的一部分,但在其餘技術堆疊方面則各不相同。
小結
使用開放式資料系統意味著可以從互操作性和工具組合的自由中獲益,為每個獨特的使用案例建立定製解決方案。資料收集、儲存、視覺化和資料分析是組成開放資料架構的拼圖。
作者 Anais Dotis-Georgiou 是 InfluxData 的開發者
來自 “ https://www.datanami.com/2023/10/19/understanding- ”,原文連結:http://blog.itpub.net/69925873/viewspace-2990156/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 時間序列資料如何助力釀酒和BBQ?
- 時間序列資料的處理
- 將VAE用於時間序列:生成時間序列的合成資料
- 【虹科乾貨】Lambda資料架構和Kappa資料架構——構建現代資料架構架構APP
- 使用InfluxDB時間序列資料功能構建可觀察性UX
- 一文讀懂SpringBoot、微服務架構和大資料治理之間的故事Spring Boot微服務架構大資料
- 使用MongoDB儲存時間序列資料 - DACMongoDB
- 人工智慧 (07) 時間序列資料分析人工智慧
- 時間序列化資料庫選型?時序資料庫的選擇?資料庫
- 從零寫一個時間序列資料庫資料庫
- Tensorflow 視窗時間序列資料的處理
- 一文了解主流大資料ETL工具大資料
- 雲資料庫時代:企業資料架構的雲化智慧重構和變革資料庫架構
- 時間序列資料壓縮演算法簡述演算法
- MATLAB時間序列資料重建與平滑:HANTS濾波Matlab
- 適合時間序列資料的計算指令碼指令碼
- 資料結構:時間複雜度資料結構時間複雜度
- 架構之:資料流架構架構
- 大資料---(3)金融資料架構大資料架構
- 18 張圖,一文了解 8 種常見的資料結構資料結構
- 《離線和實時大資料開發實戰》(二)大資料平臺架構 & 技術概覽大資料架構
- 一文讀懂 Spring Boot、微服務架構和大資料治理三者之間的故事Spring Boot微服務架構大資料
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 按照業務領域畫資料架構圖 業務架構 資料架構架構
- 分散式 PostgreSQL 叢集(Citus)官方示例 - 時間序列資料分散式SQL
- XSD 日期和時間資料型別資料型別
- 資料管理架構:單體資料架構與分散式資料網格比較 - enyo架構分散式
- 讀資料湖倉04資料架構與資料工程架構
- 一文詳解微服務架構的資料設計微服務架構
- 大資料分類和架構簡介大資料架構
- 大資料架構師大資料架構
- 資料管道架構概述架構
- ES資料庫架構資料庫架構
- 面向資料的架構架構
- 時序資料庫破局開放探討資料庫
- 實時資料架構體系建設指南架構
- 一文說清資料管理、資料治理和資料資產管理
- 時間序列預測:探索性資料分析和特徵工程的實用指南特徵工程