在CloudDataProc Pyspark中使用LD_库_路径_Pyspark_Google Cloud Platform_Google Cloud Dataproc

在CloudDataProc Pyspark中使用LD_库_路径

pyspark google-cloud-platform

在CloudDataProc Pyspark中使用LD_库_路径,pyspark,google-cloud-platform,google-cloud-dataproc,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我已经在CloudDataProc上设置了一个高度定制的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包对于虚拟环境：我让PYSPARK\u PYTHON指向虚拟环境中的PYTHON 但是，这些库无法工作，因为当我执行gcloud dataproc作业提交时，LD_LIBRARY_路径未设置.. 我试过：在Worker和master上设置spark env.sh以导出LD\u LIBRARY\u路径设置spark.ExecuteEnv.LD\u库路径创建初始化脚本，

我已经在CloudDataProc上设置了一个高度定制的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包

对于虚拟环境：我让

PYSPARK\u PYTHON

指向虚拟环境中的PYTHON

但是，这些库无法工作，因为当我执行

gcloud dataproc作业提交时，LD_LIBRARY_路径
未设置..

我试过：

在Worker和master上设置

spark env.sh

以导出

LD\u LIBRARY\u路径

设置spark.ExecuteEnv.LD\u库路径

创建初始化脚本，在初始化过程中添加（1）

但是这两种方法都失败了。

这就是最终成功的方法：

以以下方式运行gcloud命令：

gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2"

当我试图在pyspark脚本中设置spark.executionv（使用spark Config对象）时，它没有工作。我不知道为什么会这样？

关于

spark.driver.extraLibraryPath

和

spark.executor.extraLibraryPath

呢？是的，我尝试使用SparkConfig添加它-它对我不起作用