Amazon web services 将AWS粘合作业迁移到EC2
我目前正在使用一些glue作业来实现最小转换,并将信息从S3/Athena表发送到Redshift,现在我们不处理大量数据,因此glue非常昂贵、缓慢,而且很难针对这一数量的数据进行调整。 我找不到如何从EC2开始进行代码迁移、凭据和依赖项 也许我可以在EC2实例中调用lambda来处理它?我是否可以在1个节点上运行spark,然后在将来扩展到集群?我应该将Glue作业迁移到python(而不是pyspark)吗 我发现EMR对于这个卷来说也会很昂贵,理想的是从最小开始 不需要完整的解决方案,只要指向正确的方向,我就可以开始尝试。Amazon web services 将AWS粘合作业迁移到EC2,amazon-web-services,pyspark,aws-glue,Amazon Web Services,Pyspark,Aws Glue,我目前正在使用一些glue作业来实现最小转换,并将信息从S3/Athena表发送到Redshift,现在我们不处理大量数据,因此glue非常昂贵、缓慢,而且很难针对这一数量的数据进行调整。 我找不到如何从EC2开始进行代码迁移、凭据和依赖项 也许我可以在EC2实例中调用lambda来处理它?我是否可以在1个节点上运行spark,然后在将来扩展到集群?我应该将Glue作业迁移到python(而不是pyspark)吗 我发现EMR对于这个卷来说也会很昂贵,理想的是从最小开始 不需要完整的解决方案,只
谢谢大家! 对于您的要求,这里有一些建议
非常感谢。我查看了2节点EMR集群的价格,看起来还可以,也许我可以将其移动到那里,即持久EMR或瞬态EMR。