資料來源Parquet之使用程式設計方式載入資料

豐澤發表於2018-09-26

原文網址 : https://juejin.im/post/5baaf58ef265da0ae92a739f

一、Parquet是面向分析型業務的列式儲存格式，由Twitter和Cloudera合作開發，2015年5月從Apache的孵化器裡畢業成為Apache頂級專案，最新的版本是1.8.0。

二、列式儲存和行式儲存相比有哪些優勢呢？

1、可以跳過不符合條件的資料，只讀取需要的資料，降低IO資料量。

2、壓縮編碼可以降低磁碟儲存空間。由於同一列的資料型別是一樣的，可以使用更高效的壓縮編碼（例如Run Length Encoding和Delta Encoding）進一步節約儲存空間。

3、只讀取需要的列，支援向量運算，能夠獲取更好的掃描效能

package com.etc;

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SQLContext;

import java.util.List;

/**
 * @author: fengze
 * @description:
 * Parquet資料來源之使用程式設計方式載入資料
 */
public class ParquetLoadData {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf()
                .setAppName("ParquetLoadData")
                .setMaster("local");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);

        // 讀取Parquet檔案中的資料，建立一個DataFrame
        DataFrame userDf = sqlContext.read().parquet("D:\\文件\\users.parquet");

        //將DataFrame註冊為臨時表，然後使用SQL查詢需要的資料
        userDf.registerTempTable("user");
        DataFrame sql = sqlContext.sql("select * from user");

        // 對查詢出來的DataFrame進行transformation操作，處理資料，然後列印出來
        JavaRDD<String> map1 = sql.javaRDD().map(new Function<Row, String>() {
            @Override
            public String call(Row row) throws Exception {
                return "Name:" + row.getString(0);
            }
        });
        List<String> collect = map1.collect();
        for (String username : collect) {
            System.out.println(username);
        }
    }
}
複製程式碼

重點：

sqlContext.read().parquet（path）
List map = sql.javaRDD().map(new Fuction).collect();取到該行的第一位數值，最後將List陣列遍歷得結果。

SparkSQL：Parquet資料來源之合併後設資料
2018-09-26
SparkSQL
Spark SQL：Parquet資料來源之自動分割槽推斷
2018-09-26
SparkSQL
SparkSQL讀取Parquet格式的資料載入DatFrame
2020-11-03
SparkSQL
好程式設計師大資料學習資料之YARN資源管理
2019-06-17
程式設計師大資料Yarn
SpringBoot資料訪問之Druid資料來源的使用
2021-08-06
Spring BootUI
談談Spring Boot 資料來源載入及其多資料來源簡單實現
2019-04-12
Spring Boot
異構資料來源同步之資料同步 → DataX 使用細節
2024-06-04
Python 黑帽程式設計 4.2 Sniffer 之資料本地儲存和載入
2019-03-02
Python程式設計
Spring系列之資料來源的配置資料庫資料來源連線池的區別
2020-09-20
Spring資料庫
Go Web 程式設計之資料庫
2020-01-21
GoWeb程式設計資料庫
tensorflow載入資料的三種方式
2018-06-18
C語言程式設計之《從鍵盤輸入資料》
2018-08-16
C語言程式設計
Pytorch資料載入與使用
2024-06-17
PyTorch
小程式中使用ECharts 非同步載入資料
2018-06-27
Echarts非同步
網路程式設計之 Udp接收資料
2019-08-22
程式設計UDP
Java 程式設計技巧之資料結構
2019-10-22
Java程式設計資料結構
程式設計優化之管道資料流
2022-03-10
程式設計優化
好程式設計師大資料培訓分享HBase協處理器載入的三種方式
2020-06-03
程式設計師大資料
web 報表如何使用以服務方式提供的資料來源？
2020-06-29
Web
ApacheCN 程式設計/大資料/資料科學/人工智慧學習資源 2019.4
2019-04-03
Apache程式設計大資料資料科學人工智慧
Android：使用LoadingLayout來展示載入資料時不同狀態
2019-02-28
Android
資料載入
2019-05-15
Spring 註解動態資料來源設計實踐
2021-05-25
Spring
Android 使用ArrayAdapter 載入Bean資料
2019-02-28
AndroidAPTBean
【scikit-learn基礎】--『資料載入』之玩具資料集
2023-12-04
C語言程式設計之《資料輸出》
2018-08-14
C語言程式設計
解析Pyspark如何讀取parquet資料
2020-04-15
Spark
springboot 多資料來源，最簡單的整合方式
2019-11-19
Spring Boot
springboot 配置多個資料來源，@MapperScan方式繫結
2024-05-29
Spring BootAPP
達夢資料庫DM8之資料快速載入工具dmfldr使用方法
2022-05-05
資料庫
資料庫設計之思考
2021-06-25
資料庫
多資料來源與動態資料來源的權衡
2019-03-04
1024程式設計師節最新福利之2018最全大資料資料集合
2019-02-16
程式設計師大資料
NumPy之:使用genfromtxt匯入資料
2021-05-08
異構資料來源同步之資料同步 → datax 改造，有點意思
2024-05-20
外掛化之程式碼呼叫與載入資源
2018-11-08
資料庫實驗五：資料庫程式設計
2024-06-16
資料庫程式設計
資料庫實驗八資料庫程式設計
2020-12-24
資料庫程式設計

資料來源Parquet之使用程式設計方式載入資料

一、Parquet是面向分析型業務的列式儲存格式，由Twitter和Cloudera合作開發，2015年5月從Apache的孵化器裡畢業成為Apache頂級專案，最新的版本是1.8.0。

二、列式儲存和行式儲存相比有哪些優勢呢？

重點：

相關文章