由《Spark快速大数据分析》:使用Spark的第一步是下载和解压缩,所以我首先下载并解压了spark-2.4.0-bin-hadoop2.7.tgz。
然后尝试使用Spark中Python的shell。进入Spark目录,然后输入:
bin/pyspark
提示:JAVA_HOME is not set。
我用的是腾讯云服务器,估计默认没有安装JAVA,执行如下命令安装:
yum install -y java-1.8.0-openjdkyum -y install java-1.8.0-openjdk-devel
java环境安装完成后再次执行bin/pyspark,这次提示:python:未找到命令。
因为spark-2.4是基于python2的,而我这个服务器默认是python3,所以需要把python2也装上:
sudo dnf install python2
然后再把python2设为默认环境就可以了:
接着,书上推荐使用IPython,如下安装:
sudo pip install ipython
启动IPython的命令:
PYSPARK_DRIVER_PYTHON=ipython bin/pyspark
ok,环境搭建完毕。