Amazon web services 将AWS粘合作业迁移到EC2_Amazon Web Services_Pyspark_Aws Glue

Amazon web services 将AWS粘合作业迁移到EC2

amazon-web-services pyspark

Amazon web services 将AWS粘合作业迁移到EC2,amazon-web-services,pyspark,aws-glue,Amazon Web Services,Pyspark,Aws Glue,我目前正在使用一些glue作业来实现最小转换，并将信息从S3/Athena表发送到Redshift，现在我们不处理大量数据，因此glue非常昂贵、缓慢，而且很难针对这一数量的数据进行调整。我找不到如何从EC2开始进行代码迁移、凭据和依赖项也许我可以在EC2实例中调用lambda来处理它？我是否可以在1个节点上运行spark，然后在将来扩展到集群？我应该将Glue作业迁移到python（而不是pyspark）吗我发现EMR对于这个卷来说也会很昂贵，理想的是从最小开始不需要完整的解决方案，只

我目前正在使用一些glue作业来实现最小转换，并将信息从S3/Athena表发送到Redshift，现在我们不处理大量数据，因此glue非常昂贵、缓慢，而且很难针对这一数量的数据进行调整。我找不到如何从EC2开始进行代码迁移、凭据和依赖项

也许我可以在EC2实例中调用lambda来处理它？我是否可以在1个节点上运行spark，然后在将来扩展到集群？我应该将Glue作业迁移到python（而不是pyspark）吗

我发现EMR对于这个卷来说也会很昂贵，理想的是从最小开始不需要完整的解决方案，只要指向正确的方向，我就可以开始尝试。

谢谢大家!

对于您的要求，这里有一些建议

Glue和lambda等无服务器框架比持久化的EMR或EC2更合适

> Aslambda：如果您的数据量较少且转换最小，则可以考虑使用Python模块使用lambda。

AWS使用Python粘合而不是spark-这也是一个经济高效的解决方案

AWS Ec2-采用Ec2遗留方法，成本高昂

非常感谢。我查看了2节点EMR集群的价格，看起来还可以，也许我可以将其移动到那里，即持久EMR或瞬态EMR。