Apache spark 在Databricks Connect和本地Spark环境之间切换

Apache spark 在Databricks Connect和本地Spark环境之间切换,apache-spark,pyspark,databricks-connect,Apache Spark,Pyspark,Databricks Connect,我希望使用Databricks Connect开发pyspark管道。DBConnect非常棒,因为我能够在实际数据所在的集群上运行代码,因此它非常适合集成测试,但我也希望能够在开发和单元测试期间(pytest使用pytest spark),只需使用本地spark环境 是否有任何方法可以配置DBConnect,以便在一个用例中我只使用本地Spark环境,而在另一个用例中它使用DBConnect?是sc.stop()conf=SparkConf().setMaster(“local”)sc=Spa

我希望使用Databricks Connect开发pyspark管道。DBConnect非常棒,因为我能够在实际数据所在的集群上运行代码,因此它非常适合集成测试,但我也希望能够在开发和单元测试期间(
pytest
使用
pytest spark
),只需使用本地spark环境


是否有任何方法可以配置DBConnect,以便在一个用例中我只使用本地Spark环境,而在另一个用例中它使用DBConnect?

sc.stop()
conf=SparkConf().setMaster(“local”)
sc=SparkContext(conf=conf)
您在寻找什么?同样地,
SparkSession.builder.master(“local”).getOrCreate()
正在使用一个新的venv。我曾经在venv中安装了带有pyspark的databricks connect软件包,但它仍在尝试连接远程集群。为了解决这个问题,我有两个VENV;一个用于databricks connect(远程群集),一个用于本地群集