解析Pyspark如何讀取parquet資料
這篇文章主要介紹了pyspark讀取parquet資料過程解析,文中透過示例程式碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下 |
parquet資料:列式儲存結構,由Twitter和Cloudera合作開發,相比於行式儲存,其特點是:
可以跳過不符合條件的資料,只讀取需要的資料,降低IO資料量;壓縮編碼可以降低磁碟儲存空間,使用更高效的壓縮編碼節約儲存空間;只讀取需要的列,支援向量運算,能夠獲取更好的掃描效能。
那麼我們怎麼在pyspark中讀取和使用parquet資料呢?我以local模式, 下的pycharm執行作說明。
首先,匯入庫檔案和配置環境:
import os from pyspark import SparkContext, SparkConf from pyspark.sql.session import SparkSession os.environ["PYSPARK_PYTHON"]="/usr/bin/python3" #多個python版本時需要指定 conf = SparkConf().setAppName('test_parquet') sc = SparkContext('local', 'test', conf=conf) spark = SparkSession(sc)
然後,使用spark進行讀取,得到DataFrame格式的資料:host:port 屬於主機和埠號
parquetFile = r"hdfs://host:port/Felix_test/test_data.parquet" df = spark.read.parquet(parquetFile)
而,DataFrame格式資料有一些方法可以使用,例如:
1.df.first() :顯示第一條資料,Row格式
print(df.first())
2.df.columns:列名
3.df.count():資料量,資料條數
4.df.toPandas():從spark的DataFrame格式資料轉到Pandas資料結構
5.df.show():直接顯示錶資料;其中df.show(n) 表示只顯示前n行資訊
6.type(df):顯資料示格式
以上就是本文的全部內容,希望對大家的學習有所幫助。
原文地址:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31559985/viewspace-2686266/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- SparkSQL讀取Parquet格式的資料載入DatFrameSparkSQL
- 如何解析 Ethereum 資料:讀取 LevelDB 資料
- pyspark 解析kafka陣列結構資料SparkKafka陣列
- Pyspark資料基礎操作集合Spark
- Python中Spark讀取parquet檔案並獲取schema的JSON表示PythonSparkJSON
- 如何用Python讀取開放資料?Python
- ColdFusion如何從資料庫讀取資訊例子資料庫
- TiKV 原始碼解析系列文章(十三)MVCC 資料讀取原始碼MVC
- 讀取CSV資料
- excel 資料讀取Excel
- ABAP 如何解析 JSON 資料試讀版JSON
- 如何用ABAP讀取CDS view association的資料View
- 硬解析和物理讀取與軟解析和邏輯讀取
- SparkSQL:Parquet資料來源之合併後設資料SparkSQL
- Spark讀取MySQL資料SparkMySql
- 讀取JSON資料JSON
- PHPExcel讀取excel資料PHPExcel
- 利用反射讀取資料庫資料反射資料庫
- sqlserver讀取oracle資料庫資料SQLServerOracle資料庫
- eazyexcel 讀取excel資料插入資料庫Excel資料庫
- golang讀取檔案的json資料流,並解析到struct,儲存到資料庫GolangJSONStruct資料庫
- spark讀取hbase的資料Spark
- POI 分批讀取Excel資料Excel
- Jsp讀取MySQL資料JSMySql
- Spark讀取elasticsearch資料指南SparkElasticsearch
- python讀取MySQL資料PythonMySql
- TensorFlow讀取CSV資料
- 建造者模式讀取資料模式
- 讀取資料夾檔案
- Hadoop3.2.1 【 HDFS 】原始碼分析 : DataXceiver: 讀取資料塊 解析 [二]Hadoop原始碼
- 如何用ABAP程式碼讀取CDS view association的資料View
- 資料來源Parquet之使用程式設計方式載入資料程式設計
- gin框架,讀取檔案的json資料流,並解析到struct,儲存到資料庫框架JSONStruct資料庫
- PySpark原始碼解析,教你用Python呼叫高效Scala介面,搞定大規模資料分析Spark原始碼Python
- buffer cache實驗9-從buffer caceh中讀取資料塊解析-從邏輯讀到物理讀
- Python中讀寫Parquet檔案的方法Python
- 讀取JSON資料存入表格JSON
- Excel上傳並讀取資料Excel