在CloudDataProc Pyspark中使用LD_库_路径
我已经在CloudDataProc上设置了一个高度定制的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包 对于虚拟环境:我让在CloudDataProc Pyspark中使用LD_库_路径,pyspark,google-cloud-platform,google-cloud-dataproc,Pyspark,Google Cloud Platform,Google Cloud Dataproc,我已经在CloudDataProc上设置了一个高度定制的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。它们与虚拟环境一起打包 对于虚拟环境:我让PYSPARK\u PYTHON指向虚拟环境中的PYTHON 但是,这些库无法工作,因为当我执行gcloud dataproc作业提交时,LD_LIBRARY_路径未设置.. 我试过: 在Worker和master上设置spark env.sh以导出LD\u LIBRARY\u路径 设置spark.ExecuteEnv.LD\u库路径 创建初始化脚本,
PYSPARK\u PYTHON
指向虚拟环境中的PYTHON
但是,这些库无法工作,因为当我执行gcloud dataproc作业提交时,LD_LIBRARY_路径
未设置..
我试过:
spark env.sh
以导出LD\u LIBRARY\u路径
但是这两种方法都失败了。这就是最终成功的方法: 以以下方式运行gcloud命令:
gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2"
当我试图在pyspark脚本中设置spark.executionv(使用spark Config对象)时,它没有工作。我不知道为什么会这样?关于
spark.driver.extraLibraryPath
和spark.executor.extraLibraryPath
呢?是的,我尝试使用SparkConfig添加它-它对我不起作用