Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/357.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何使用pyspark IDE处理pyspark和mongoDB_Python_Mongodb_Apache Spark_Pyspark_Pycharm - Fatal编程技术网

Python 如何使用pyspark IDE处理pyspark和mongoDB

Python 如何使用pyspark IDE处理pyspark和mongoDB,python,mongodb,apache-spark,pyspark,pycharm,Python,Mongodb,Apache Spark,Pyspark,Pycharm,我需要在pyspark上工作,在MongoDB集合中读写。一切正常。我使用下面的包启动带有MongoDB连接的pyspark ./pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 然而,问题是它在命令行中,在命令行中编写大型代码变得很困难。任何人都知道如何使用相同的功能在pycharm中工作,或者如何使用--packages选项在pycharm中启动pyspark实例?关于如何配置pycharm以使用py

我需要在pyspark上工作,在MongoDB集合中读写。一切正常。我使用下面的包启动带有MongoDB连接的pyspark

./pyspark --packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0

然而,问题是它在命令行中,在命令行中编写大型代码变得很困难。任何人都知道如何使用相同的功能在pycharm中工作,或者如何使用--packages选项在pycharm中启动pyspark实例?

关于如何配置pycharm以使用pyspark,有一个广泛的SO线程-请参阅

该线程不包括如何添加外部包,比如您感兴趣的MongoDB连接器;您可以通过在
$spark\u HOME/conf
中的
spark defaults.conf
文件中添加以下条目来完成此操作:

spark.jars.packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
请注意,如果您选择使用
pip
(上述线程的可接受答案中提到的最后一个选项,对于Spark>=2.2),我不确定这是否会起作用(我怀疑不会)。就个人而言,我不建议将pyspark与
pip一起安装,因为正如

Spark的Python打包并不打算取代所有 其他用例。此Python打包版本的Spark适用于 与现有集群(无论是独立集群、纱线集群还是 Mesos)-但不包含设置您自己的系统所需的工具 独立的火花簇


将mongo spark连接器添加到
$spark_HOME/conf
中的
spark.jars.packages
中是可行的,如@desertnaut所述。但是,如果您想知道pyspark中的代码,也可以将此配置添加到spark会话中

spark: SparkSession = SparkSession \
    .builder \
    .appName("MyApp") \
    .config("spark.mongodb.input.uri", "mongodb://localhost:27017/db.collection") \
    .config("spark.mongodb.output.uri", "mongodb://localhost:27017/db.collection") \
    .config("spark.jars.packages", "org.mongodb.spark:mongo-spark-connector_2.12:3.0.1") \
    .master("local") \
    .getOrCreate()

spark.jars.packages org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
添加到
spark defaults.conf
在pycharm中起作用。非常感谢。