Apache Spark技術實戰之4 -- 利用Spark將json檔案匯入Cassandra

徽滬一郎發表於2014-09-06

ApacheSparkJSON

歡迎轉載，轉載請註明出處。

概要

本文簡要介紹如何使用spark-cassandra-connector將json檔案匯入到cassandra資料庫，這是一個使用spark的綜合性示例。

前提條件

假設已經閱讀技術實戰之3,並安裝瞭如下軟體

jdk
scala
sbt
cassandra
spark-cassandra-connector

實驗目的

將存在於json檔案中的資料匯入到cassandra資料庫，目前由cassandra提供的官方工具是json2sstable，由於對cassandra本身瞭解不多，這個我還沒有嘗試成功。

但想到spark sql中可以讀取json檔案，而spark-cassadra-connector又提供了將RDD存入到資料庫的功能，我想是否可以將兩者結合一下。

建立KeySpace和Table

為了減少複雜性，繼續使用實戰3中的keyspace和table，

CREATE KEYSPACE test WITH replication = {'class': 'SimpleStrategy', 'replication_factor': 1 };
CREATE TABLE test.kv(key text PRIMARY KEY, value int);

啟動spark-shell

與實戰3中描述一致。

bin/spark-shell --driver-class-path /root/working/spark-cassandra-connector/spark-cassandra-connector/target/scala-2.10/spark-cassandra-connector_2.10-1.1.0-SNAPSHOT.jar:/root/.ivy2/cache/org.apache.cassandra/cassandra-thrift/jars/cassandra-thrift-2.0.9.jar:/root/.ivy2/cache/org.apache.thrift/libthrift/jars/libthrift-0.9.1.jar:/root/.ivy2/cache/org.apache.cassandra/cassandra-clientutil/jars/cassandra-clientutil-2.0.9.jar:/root/.ivy2/cache/com.datastax.cassandra/cassandra-driver-core/jars/cassandra-driver-core-2.0.4.jar:/root/.ivy2/cache/io.netty/netty/bundles/netty-3.9.0.Final.jar:/root/.ivy2/cache/com.codahale.metrics/metrics-core/bundles/metrics-core-3.0.2.jar:/root/.ivy2/cache/org.slf4j/slf4j-api/jars/slf4j-api-1.7.7.jar:/root/.ivy2/cache/org.apache.commons/commons-lang3/jars/commons-lang3-3.3.2.jar:/root/.ivy2/cache/org.joda/joda-convert/jars/joda-convert-1.2.jar:/root/.ivy2/cache/joda-time/joda-time/jars/joda-time-2.3.jar:/root/.ivy2/cache/org.apache.cassandra/cassandra-all/jars/cassandra-all-2.0.9.jar:/root/.ivy2/cache/org.slf4j/slf4j-log4j12/jars/slf4j-log4j12-1.7.2.jar

準備json檔案

以spark自帶的person.json檔案為例，內容如下所示

{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

資料匯入

假設person.json檔案儲存在$SPARK_HOME目錄，在啟動spark-shell之後，執行如下語句

sc.stop
import com.datastax.spark.connector._
import org.apache.spark._
val conf = new SparkConf()
conf.set("spark.cassandra.connection.host", "127.0.0.1")
val sc = new SparkContext("local[2]", "Cassandra Connector Test", conf)
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val path = "./people.json"
val people = sqlContext.jsonFile(path)
people.map(p=>(p.getString(10),p.getInt(0)))
      .saveToCassandra("test","kv",SomeColumns("key","value"))

注意:

jsonFile返回的是jsonRDD，其中每一個成員是Row型別，並不行直接將saveToCassandra作用於jsonRDD，需要先作一步轉換即map過程
map中使用到的getXXX函式是在事先已知資料型別的情況下取出其值
最後saveToCassandra觸發資料的儲存過程

另外一個地方值得記錄一下，如果在cassandra中建立的表使用了uuid作為primary key，在scala中使用如下函式來生成uuid

import java.util.UUID
UUID.randomUUID

驗證步驟

使用cqlsh來檢視資料是否已經真正的寫入到test.kv表中。

小結

本次實驗結合了以下知識

spark sql
spark RDD的轉換函式
spark-cassandra-connector

Apache Spark技術實戰之3 -- Spark Cassandra Connector的安裝和使用
2014-09-02
ApacheSpark
Apache Spark技術實戰之6 -- spark-submit常見問題及其解決
2014-10-26
ApacheSparkMIT
Apache Spark技術實戰之5 -- SparkR的安裝及使用
2014-09-28
ApacheSpark
Apache Spark技術實戰之7 -- CassandraRDD高併發資料讀取實現剖析
2014-11-17
ApacheSpark
Apache Spark 入門簡介
2015-08-18
ApacheSpark
從 Neo4j 匯入 Nebula Graph 實踐見 SPark 資料匯入原理
2020-09-16
Spark
Apache Spark SQL的高階Join連線技術
2019-01-08
ApacheSparkSQL
教程：Apache Spark SQL入門及實踐指南！
2018-09-12
ApacheSparkSQL
【備忘】《圖解Spark 核心技術與案例實戰》PDF
2018-09-01
圖解Spark
【Spark篇】---Spark中Shuffle檔案的定址
2018-03-07
Spark
實戰|使用Spark Streaming寫入Hudi
2020-04-18
Spark
【spark筆記】在idea用maven匯入spark原始碼
2021-09-09
Spark筆記IdeaMaven原始碼
[翻譯]Apache Spark入門簡介
2015-08-17
ApacheSpark
Spark之spark shell
2018-09-13
Spark
【技術乾貨】程式碼示例：使用 Apache Spark 連線 TDengine
2022-05-30
ApacheSpark
js 匯入json配置檔案
2018-06-18
JSON
Spark Streaming監聽HDFS檔案（Spark-shell）
2024-11-04
Spark
Spark機器學習實戰 (十一) - 文字情感分類專案實戰
2019-04-19
Spark機器學習
Spark SQL，如何將 DataFrame 轉為 json 格式
2018-12-06
SparkSQLJSON
如何透過Python將JSON格式檔案匯入redis？
2024-02-08
PythonJSONRedis
如何將 JSON, Text, XML, CSV 資料檔案匯入 MySQL
2016-04-11
JSONXMLMySql
Spark SQL：JSON資料來源複雜綜合案例實戰
2018-09-28
SparkSQLJSON
Apache Spark Day3
2020-10-30
ApacheSpark
Apache Spark原始碼剖析
2015-03-23
ApacheSpark原始碼
將csv檔案匯入到neo4j中
2024-05-28
Spark流教程：使用 Apache Spark 的Twitter情緒分析
2021-12-29
SparkApache
Cassandra+Akka+Spark分散式機器學習架構
2015-10-31
Spark分散式機器學習架構
Spark優化之小檔案是否需要合併?
2020-08-13
Spark優化
Apache Ignite 與 Apache Spark比較
2015-05-04
ApacheSpark
Python技術棧與Spark交叉資料分析雙向整合技術實戰--大資料ML樣本集案例實戰
2018-12-17
PythonSpark大資料
spark叢集的配置檔案
2020-12-05
Spark
Spark基礎-Scala檔案操作
2017-09-04
Spark
Apache Spark有哪些侷限性
2020-06-11
ApacheSpark
Spark SQL:4.對Spark SQL的理解
2018-12-08
SparkSQL
Hello Spark! | Spark，從入門到精通
2018-09-18
Spark
Spark SQL | Spark，從入門到精通
2019-01-21
SparkSQL
技術基礎 | Apache Cassandra 4.0基準測試
2021-01-23
Apache
Spark 系列（九）—— Spark SQL 之 Structured API
2019-08-13
SparkSQLStructAPI