Spark整合hive

yue-verdure發表於2020-11-05

整合hive和spark讓spark能夠操作hive中的表和資料

在hive的hive-site.xml修改一行配置,增加了這一行配置之後,以後在使用hive之前都需要先啟動後設資料服務

<property>
<name>hive.metastore.uris</name>
<value>thrift://master:9083</value>
</property>

將hive-site.xml 複製到spark conf目錄下

 cp hive-site.xml /usr/local/soft/spark-2.4.5-bin-hadoop2.6/conf/

啟動hive後設資料服務(配置過hive的環境變數)

nohup hive --service metastore >> metastore.log 2>&1 &

將mysql 驅動包複製到saprk jars目錄下

cp mysql-connector-java-5.1.17.jar /usr/local/soft/spark-2.4.5-bin-hadoop2.6/jars/

整合好之後在spark-sql 裡面就可以使用hive的表了

spark-sql --master yarn-client  --conf  spark.sql.shuffle.partitions=2

相關文章