Apache Spark:如何在Python中使用pyspark 3
我从GH开发大师那里构build了Spark 1.4,构build得很好。 但是当我做一个bin/pyspark
我得到了Python 2.7.9版本。 我怎样才能改变这个?
只需设置环境variables:
export PYSPARK_PYTHON=python3
如果你想这是一个永久性的变化添加此行到pyspark脚本。
PYSPARK_PYTHON=python3 ./bin/pyspark
如果你想在IPython Notebook中运行,写:
PYSPARK_PYTHON=python3 PYSPARK_DRIVER_PYTHON=ipython PYSPARK_DRIVER_PYTHON_OPTS="notebook" ./bin/pyspark
如果python3
不可访问,则需要将path传递给它。
请记住, 目前的文档(从1.4.1开始)有过时的说明。 幸运的是, 它已经修补 。
1,编辑configuration文件: vim ~/.profile
2,将代码添加到文件中: export PYSPARK_PYTHON=python3
3,执行命令: source ~/.profile
4,./ ./bin/pyspark
看看文件。 shebang行可能是指向search第一个兼容的可执行文件的path的“env”二进制文件。
你可以改变python到python3。 改变env直接使用硬编码的python3二进制文件。 或者直接用python3执行二进制文件,并省略shebang行。