Rust的資料DataFrame庫有哪些?

banq發表於2022-10-06

DataFrame 是一種資料結構,可將資料組織成由行和列組成的二維表,類似於電子表格。DataFrames 是現代資料分析中最常用的資料結構之一,因為它們是一種靈活且直觀的儲存和處理資料的方式。

Rust 有驚人的Data/DataFrame 庫,而且它們會變得更好:
  • Polars是一個速度極快的 DataFrame 庫,具有漂亮的使用者介面和很棒的入門指南。令人印象深刻的 h2o 基準測試結果讓 Polars 獲得了很多使用者。
  • arrow-datafusion是另一個很棒的 DataFrame 庫,特別是如果您喜歡執行 SQL 查詢。使用 DataFusion 使用 SQL 查詢 Parquet / CSV 資料集非常容易。我已經執行了本地基準測試,而且速度非常快。DataFusion 文件有點缺乏,對於這樣一個開發和驚人的庫來說,這是一種恥辱。我希望讓這些變得更好,並幫助向世界傳播這個 lib 的真正神奇之處。
  • arrow2parquet2是 Rust 中優秀的基礎庫和 DataFrame 庫。
  • delta-rs,它將 Delta Lake 的力量帶到了 Rust 社群。CSV / Parquet Lakes 是有限的,而 Delta Lakes 提供了大量優勢(版本化資料、時間旅行、ACID 事務、模式執行等)。我們正在努力為 delta-rs 帶來完整的 Polars 和 DataFusion 支援,請參閱路線圖
  • arrow-datafusion 是 influxDB 下一次迭代的核心元件,influx_iox 也是如此。
  • 對於在 Rust 中獲取流輸入資料並將其作為結構化/壓縮輸出儲存到物件儲存:kafka-delta-ingest是將流資料匯入 Delta Lake 的好專案

Rust 正迅速成為處理 DataFrame 工作負載的最佳語言之一。它的速度快得令人震驚。

 

相關文章