Amazon web services 将AWS粘合作业迁移到EC2

Amazon web services 将AWS粘合作业迁移到EC2,amazon-web-services,pyspark,aws-glue,Amazon Web Services,Pyspark,Aws Glue,我目前正在使用一些glue作业来实现最小转换,并将信息从S3/Athena表发送到Redshift,现在我们不处理大量数据,因此glue非常昂贵、缓慢,而且很难针对这一数量的数据进行调整。 我找不到如何从EC2开始进行代码迁移、凭据和依赖项 也许我可以在EC2实例中调用lambda来处理它?我是否可以在1个节点上运行spark,然后在将来扩展到集群?我应该将Glue作业迁移到python(而不是pyspark)吗 我发现EMR对于这个卷来说也会很昂贵,理想的是从最小开始 不需要完整的解决方案,只

我目前正在使用一些glue作业来实现最小转换,并将信息从S3/Athena表发送到Redshift,现在我们不处理大量数据,因此glue非常昂贵、缓慢,而且很难针对这一数量的数据进行调整。 我找不到如何从EC2开始进行代码迁移、凭据和依赖项

也许我可以在EC2实例中调用lambda来处理它?我是否可以在1个节点上运行spark,然后在将来扩展到集群?我应该将Glue作业迁移到python(而不是pyspark)吗

我发现EMR对于这个卷来说也会很昂贵,理想的是从最小开始 不需要完整的解决方案,只要指向正确的方向,我就可以开始尝试。
谢谢大家!

对于您的要求,这里有一些建议

  • Glue和lambda等无服务器框架比持久化的EMR或EC2更合适
  • > Aslambda:如果您的数据量较少且转换最小,则可以考虑使用Python模块使用lambda。
  • AWS使用Python粘合而不是spark-这也是一个经济高效的解决方案
  • AWS Ec2-采用Ec2遗留方法,成本高昂

  • 非常感谢。我查看了2节点EMR集群的价格,看起来还可以,也许我可以将其移动到那里,即持久EMR或瞬态EMR。