面试准备-spark+hive

基础环境

组件 版本
spark 2.2
hadoop 2.7.4
hive 1.2.2

spark 读取hive数据

测试一下电脑上已经安装的Spark版本是否支持Hive

需要把Hive的配置文件hive-site.xml拷贝到Spark的conf目录下

mysql驱动拷贝到$SPARK_HOME/jars下 或者spark-shell –driver-class-path /path/to/mysql-connector-java-5.1.44.jar

对于2.0版本以后,入口变成了SparkSession,使用SparkSession.builder()来构建

依赖 spark-hive_2.11

1
2
3
4
5
6
7
<!-- https://mvnrepository.com/artifact/org.apache.spark/spark-hive_2.11 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-hive_2.11</artifactId>
<version>2.2.0</version>
<scope>provided</scope>
</dependency>

参考资源

  1. Spark2.1.0入门:连接Hive读写数据(DataFrame)