Python 可重复使用的AWS胶水作业_Python_Pyspark_Aws Glue

Python 可重复使用的AWS胶水作业

python pyspark

Python 可重复使用的AWS胶水作业,python,pyspark,aws-glue,Python,Pyspark,Aws Glue,我有200多个表需要从RDBMS迁移到S3，不需要任何转换，所以我们计划使用Glue Job进行迁移。所以我想创建一个AWS Glue作业，它可以重用并使用参数值执行，这样我就可以一次运行多个表（多线程）。这在AWS胶水中是否可行。快速回答是肯定的您可以重用可以恢复的单个粘合作业，其中可以将源位置和目标数据库表名作为作业参数传递给粘合作业您的粘合作业支持可在粘合作业中设置的并发性（这意味着您可以对同一作业进行多次调用）。这将是比在工作中实现多线程更容易的选择。但是，只要我们只使用默认或纯py

我有200多个表需要从RDBMS迁移到S3，不需要任何转换，所以我们计划使用Glue Job进行迁移。所以我想创建一个AWS Glue作业，它可以重用并使用参数值执行，这样我就可以一次运行多个表（多线程）。这在AWS胶水中是否可行。

快速回答是肯定的

您可以重用可以恢复的单个粘合作业，其中可以将源位置和目标数据库表名作为作业参数传递给粘合作业

您的粘合作业支持可在粘合作业中设置的并发性（这意味着您可以对同一作业进行多次调用）。这将是比在工作中实现多线程更容易的选择。但是，只要我们只使用默认或纯python模块，多线程肯定是可能的。您需要记住某些帐户级别限制（可以增加）

在调用粘合作业时，可以使用任何需要的机制（例如：步骤函数/lambdas…）将参数传递给粘合作业

谢谢Emerson，在你提到的我们可以有多个调用时，这些调用可以同时进行吗？因此，我将创建一个lambda或step函数，该函数将使用S3文件夹中的一个粘合作业或脚本为多个表并行运行。。您可以同时有多个参与。是的，您可以让singluar lambda/step函数运行单个作业/脚本，并在运行时向它们传递不同的参数（尽管某些执行可能超出lambda时间限制..因此您可能最终使用step函数）