Amazon web services 是否可以使用AWS胶水连接来创建数据源?

Amazon web services 是否可以使用AWS胶水连接来创建数据源?,amazon-web-services,pyspark,aws-glue,Amazon Web Services,Pyspark,Aws Glue,我正在尝试访问AWS Glue作业脚本中专用子网中的数据库。正如文档中所示,可以使用不同的“连接类型”和适当的“连接选项”创建数据源,但它们不支持VPC设置 唯一支持VPC设置的是AWS Glue Connection,但我找不到一种方法来使用AWS Glue Connection创建Spark数据源 或者可能有一些解决方法?请参见本文的步骤8,在添加Glue jdbc连接后,创建一个爬虫程序,将表元数据从源数据库导入AWS Glue数据目录 然后,您可以访问粘合作业中的表,如下所示: df =

我正在尝试访问AWS Glue作业脚本中专用子网中的数据库。正如文档中所示,可以使用不同的“连接类型”和适当的“连接选项”创建数据源,但它们不支持VPC设置

唯一支持VPC设置的是AWS Glue Connection,但我找不到一种方法来使用AWS Glue Connection创建Spark数据源

或者可能有一些解决方法?

请参见本文的步骤8,在添加Glue jdbc连接后,创建一个爬虫程序,将表元数据从源数据库导入AWS Glue数据目录

然后,您可以访问粘合作业中的表,如下所示:

df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")
或带火花:

df = spark.sql("SELECT * FROM db1.table1")

但那样的话,我就没有实时数据了。实际上,我可以直接从Spark连接到Postgres,但没有VPC设置。只有连接配置,为什么不呢?爬虫程序不会从pgdb中提取数据,而是提取元数据并在Glue目录中创建一个表引用。当您运行Glue/Spark作业时,它将使用jdbc直接查询pg。是指实时数据。好的,我明白了。不知何故,我认为目录表只能由S3支持。非常感谢。