Amazon web services 是否可以使用AWS胶水连接来创建数据源？_Amazon Web Services_Pyspark_Aws Glue

Amazon web services 是否可以使用AWS胶水连接来创建数据源？

amazon-web-services pyspark

Amazon web services 是否可以使用AWS胶水连接来创建数据源？,amazon-web-services,pyspark,aws-glue,Amazon Web Services,Pyspark,Aws Glue,我正在尝试访问AWS Glue作业脚本中专用子网中的数据库。正如文档中所示，可以使用不同的“连接类型”和适当的“连接选项”创建数据源，但它们不支持VPC设置唯一支持VPC设置的是AWS Glue Connection，但我找不到一种方法来使用AWS Glue Connection创建Spark数据源或者可能有一些解决方法？请参见本文的步骤8，在添加Glue jdbc连接后，创建一个爬虫程序，将表元数据从源数据库导入AWS Glue数据目录然后，您可以访问粘合作业中的表，如下所示： df =

我正在尝试访问AWS Glue作业脚本中专用子网中的数据库。正如文档中所示，可以使用不同的“连接类型”和适当的“连接选项”创建数据源，但它们不支持VPC设置

唯一支持VPC设置的是AWS Glue Connection，但我找不到一种方法来使用AWS Glue Connection创建Spark数据源

或者可能有一些解决方法？

请参见本文的步骤8，在添加Glue jdbc连接后，创建一个爬虫程序，将表元数据从源数据库导入AWS Glue数据目录

然后，您可以访问粘合作业中的表，如下所示：

df = glueContext.create_dynamic_frame.from_catalog(database = "db1", table_name = "table1")

或带火花：

df = spark.sql("SELECT * FROM db1.table1")

但那样的话，我就没有实时数据了。实际上，我可以直接从Spark连接到Postgres，但没有VPC设置。只有连接配置，为什么不呢？爬虫程序不会从pgdb中提取数据，而是提取元数据并在Glue目录中创建一个表引用。当您运行Glue/Spark作业时，它将使用jdbc直接查询pg。是指实时数据。好的，我明白了。不知何故，我认为目录表只能由S3支持。非常感谢。