Python Pyspark-配置Amazon Redshift JDBC jar_Python_Apache Spark_Jdbc_Jar_Amazon Redshift

Python Pyspark-配置Amazon Redshift JDBC jar

python apache-spark jdbc jar amazon-redshift

Python Pyspark-配置Amazon Redshift JDBC jar,python,apache-spark,jdbc,jar,amazon-redshift,Python,Apache Spark,Jdbc,Jar,Amazon Redshift,我试图使用spark redshiftdatabricks包，但无法使redshiftjdbc驱动程序正常工作。我已从下载了最新版本，并保存到s3存储桶中这就是我启动spark shell的方式 MASTER=yarn-client IPYTHON=1 PYSPARK_PYTHON=/usr/bin/python27 /usr/lib/spark/bin/pyspark --packages com.databricks:spark-avro_2.10:2.0.1,com.databrick

我试图使用

spark redshift

databricks包，但无法使

redshift

jdbc

驱动程序正常工作。我已从下载了最新版本，并保存到s3存储桶中

这就是我启动spark shell的方式

MASTER=yarn-client IPYTHON=1 PYSPARK_PYTHON=/usr/bin/python27 /usr/lib/spark/bin/pyspark 
--packages com.databricks:spark-avro_2.10:2.0.1,com.databricks:spark-redshift_2.10:1.1.0 
--jars 's3://pathto/RedshiftJDBC42-1.2.1.1001.jar'

我正试图按照databricks自述文件从Redshift读取数据

df = sql_context.read \
.format("com.databricks.spark.redshift") \
.option("url", "jdbc:redshift://redshifthost:5439/database?user=username&password=pass") \
.option("dbtable", "my_table") \
.option("tempdir", "s3n://path/for/temp/data") \
.load()

但我得到一个配置错误：

 Py4JJavaError: An error occurred while calling o46.load.
 : java.lang.ClassNotFoundException: Could not load an Amazon Redshift JDBC driver; see the README for instructions on downloading and configuring the official Amazon driver.

jar文件似乎已被读取，因此不确定如何以不同的方式指定它。

当我意识到自己做错了什么时，只是更新了这个文件。我在s3存储桶中引用jar文件，但这需要在集群本地可用

aws s3 cp s3://pathto/RedshiftJDBC42-1.2.1.1001.jar /tmp/

我也在尝试做同样的事情，但是得到了未解决的依赖错误，您是否安装了任何软件包或对运行进行了任何配置更改。