centos上搭建运行spark的环境

时间：2023-07-25

由《Spark快速大数据分析》：使用Spark的第一步是下载和解压缩，所以我首先下载并解压了spark-2.4.0-bin-hadoop2.7.tgz。

然后尝试使用Spark中Python的shell。进入Spark目录，然后输入：

bin/pyspark

提示：JAVA_HOME is not set。

我用的是腾讯云服务器，估计默认没有安装JAVA，执行如下命令安装：

yum install -y java-1.8.0-openjdkyum -y install java-1.8.0-openjdk-devel

java环境安装完成后再次执行bin/pyspark，这次提示：python：未找到命令。

因为spark-2.4是基于python2的，而我这个服务器默认是python3，所以需要把python2也装上：

sudo dnf install python2

然后再把python2设为默认环境就可以了：

接着，书上推荐使用IPython，如下安装：

sudo pip install ipython

启动IPython的命令：

PYSPARK_DRIVER_PYTHON=ipython bin/pyspark

ok，环境搭建完毕。