Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 使用常规Jupyter笔记本导入PypSpark软件包_Apache Spark_Pyspark_Jupyter Notebook - Fatal编程技术网

Apache spark 使用常规Jupyter笔记本导入PypSpark软件包

Apache spark 使用常规Jupyter笔记本导入PypSpark软件包,apache-spark,pyspark,jupyter-notebook,Apache Spark,Pyspark,Jupyter Notebook,除了正确导入包之外,pyspark实际上在做什么?是否可以使用一个普通的jupyter笔记本,然后导入所需内容?是的,这是可能的,但可能会很痛苦。虽然Python本身不是问题,您只需要设置$SPARK_HOME,添加$SPARK_HOME/Python(如果无法访问,则添加$SPARK_HOME/Python/lib/py4j-[VERSION]-src.zip)PySpark脚本也可以处理JVM设置(--packages,--jars--conf,等等) 可以使用PYSPARK\u SUBMI

除了正确导入包之外,
pyspark
实际上在做什么?是否可以使用一个普通的
jupyter笔记本
,然后导入所需内容?

是的,这是可能的,但可能会很痛苦。虽然Python本身不是问题,您只需要设置
$SPARK_HOME
,添加
$SPARK_HOME/Python
(如果无法访问,则添加
$SPARK_HOME/Python/lib/py4j-[VERSION]-src.zip
)PySpark脚本也可以处理JVM设置(
--packages
--jars
--conf
,等等)

可以使用
PYSPARK\u SUBMIT\u ARGS
变量或使用
$SPARK\u HOME/conf
(例如,请参阅)


有一个描述示例配置的旧版本,据我所知,它仍然有效。

< p>您可以考虑为Juyter创建PyScar内核——它将为您导入PySCAPK软件包。 创建文件(需要先创建目录;对于旧版本,它可能位于其他位置):

内容如下:

{
 "display_name": "pySpark (Spark 1.6.0)",
 "language": "python",
 "argv": [
  "/usr/bin/python2",
  "-m",
  "IPython.kernel",
  "-f",
  "{connection_file}"
 ],
 "env": {
  "SPARK_HOME": "/usr/local/lib/spark-1.6.0-bin-hadoop2.6",
  "PYTHONPATH": "/usr/local/lib/spark-1.6.0-bin-hadoop2.6/python/:/usr/local/lib/spark-1.6.0-bin-hadoop2.6/python/lib/py4j-0.9-src.zip",
  "PYTHONSTARTUP": "/usr/local/lib/spark-1.6.0-bin-hadoop2.6/python/pyspark/shell.py",
  "PYSPARK_SUBMIT_ARGS": "pyspark-shell"
 }
}

适当更改Spark的路径。

假设您尚未创建上下文,我希望使用
PYSPARK\u submit\u args设置提交args

import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-memory 15g --packages com.databricks:spark-csv_2.10:1.3.0 pyspark-shell'

没有什么反对
pyspark
,只是想了解Spark(pyspark)是如何工作的。如果我想发送我自己的
py
库,该库有几个类,等等,怎么样?@AlbertoBonsanto一如既往。如果可能,在workers上安装或使用pyfile发送。您在这方面遇到过任何问题吗?文档非常模糊,我试图这样做,但在
Python
Scala
中都没有任何积极的结果,我必须再试一次。
import os

os.environ['PYSPARK_SUBMIT_ARGS'] = '--driver-memory 15g --packages com.databricks:spark-csv_2.10:1.3.0 pyspark-shell'