Python 可重复使用的AWS胶水作业

Python 可重复使用的AWS胶水作业,python,pyspark,aws-glue,Python,Pyspark,Aws Glue,我有200多个表需要从RDBMS迁移到S3,不需要任何转换,所以我们计划使用Glue Job进行迁移。所以我想创建一个AWS Glue作业,它可以重用并使用参数值执行,这样我就可以一次运行多个表(多线程)。这在AWS胶水中是否可行。快速回答是肯定的 您可以重用可以恢复的单个粘合作业,其中可以将源位置和目标数据库表名作为作业参数传递给粘合作业 您的粘合作业支持可在粘合作业中设置的并发性(这意味着您可以对同一作业进行多次调用)。这将是比在工作中实现多线程更容易的选择。但是,只要我们只使用默认或纯py

我有200多个表需要从RDBMS迁移到S3,不需要任何转换,所以我们计划使用Glue Job进行迁移。所以我想创建一个AWS Glue作业,它可以重用并使用参数值执行,这样我就可以一次运行多个表(多线程)。这在AWS胶水中是否可行。

快速回答是肯定的

  • 您可以重用可以恢复的单个粘合作业,其中可以将源位置和目标数据库表名作为作业参数传递给粘合作业
  • 您的粘合作业支持可在粘合作业中设置的并发性(这意味着您可以对同一作业进行多次调用)。这将是比在工作中实现多线程更容易的选择。但是,只要我们只使用默认或纯python模块,多线程肯定是可能的。您需要记住某些帐户级别限制(可以增加)
  • 在调用粘合作业时,可以使用任何需要的机制(例如:步骤函数/lambdas…)将参数传递给粘合作业

  • 谢谢Emerson,在你提到的我们可以有多个调用时,这些调用可以同时进行吗?因此,我将创建一个lambda或step函数,该函数将使用S3文件夹中的一个粘合作业或脚本为多个表并行运行。。您可以同时有多个参与。是的,您可以让singluar lambda/step函数运行单个作业/脚本,并在运行时向它们传递不同的参数(尽管某些执行可能超出lambda时间限制..因此您可能最终使用step函数)