在CloudDataProc Pyspark中使用LD_库_路径

在CloudDataProc Pyspark中使用LD_库_路径,pyspark,google-cloud-platform,google-cloud-dataproc,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我已经在CloudDataProc上设置了一个高度定制的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包 对于虚拟环境:我让PYSPARK\u PYTHON指向虚拟环境中的PYTHON 但是,这些库无法工作,因为当我执行gcloud dataproc作业提交时,LD_LIBRARY_路径未设置.. 我试过: 在Worker和master上设置spark env.sh以导出LD\u LIBRARY\u路径 设置spark.ExecuteEnv.LD\u库路径 创建初始化脚本,

我已经在CloudDataProc上设置了一个高度定制的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包

对于虚拟环境:我让
PYSPARK\u PYTHON
指向虚拟环境中的PYTHON

但是,这些库无法工作,因为当我执行
gcloud dataproc作业提交时,
LD_LIBRARY_路径
未设置..

我试过:

  • 在Worker和master上设置
    spark env.sh
    以导出
    LD\u LIBRARY\u路径
  • 设置spark.ExecuteEnv.LD\u库路径
  • 创建初始化脚本,在初始化过程中添加(1)

  • 但是这两种方法都失败了。

    这就是最终成功的方法:

    以以下方式运行gcloud命令:

    gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2" 
    

    当我试图在pyspark脚本中设置spark.executionv(使用spark Config对象)时,它没有工作。我不知道为什么会这样?

    关于
    spark.driver.extraLibraryPath
    spark.executor.extraLibraryPath
    呢?是的,我尝试使用SparkConfig添加它-它对我不起作用