Python 高效地将s3文件导入Postgres_Python_Postgresql_Amazon Web Services_Amazon S3_Amazon Rds

Python 高效地将s3文件导入Postgres

python postgresql amazon-web-services amazon-s3

Python 高效地将s3文件导入Postgres,python,postgresql,amazon-web-services,amazon-s3,amazon-rds,Python,Postgresql,Amazon Web Services,Amazon S3,Amazon Rds,我目前正在使用AWS S3作为许多json文件的存储（200万个，正在计算）。我想把所有这些文件放在一个数据库中，一个Postgres RDS中我目前正在使用AWS Lambda解析文件，它比在本地运行要慢得多。此外，使用lambda在Python中运行脚本和安装外部模块的工作非常糟糕有没有一种更快更有效的方法来处理S3文件、解析它们并将它们放入Postgres而无需下载它们它需要在每个新文件上运行（这就是我选择lambda的原因），并且需要将它划分为两个表，因此它不仅仅是按原样放置文件

我目前正在使用AWS S3作为许多json文件的存储（200万个，正在计算）。我想把所有这些文件放在一个数据库中，一个Postgres RDS中

我目前正在使用AWS Lambda解析文件，它比在本地运行要慢得多。此外，使用lambda在Python中运行脚本和安装外部模块的工作非常糟糕

有没有一种更快更有效的方法来处理S3文件、解析它们并将它们放入Postgres而无需下载它们

它需要在每个新文件上运行（这就是我选择lambda的原因），并且需要将它划分为两个表，因此它不仅仅是按原样放置文件（脚本已经将文件提取并解析到正确的表中）。

您可以使用aws glue。但这将花费您每次运行作业的成本。

Q：您的lambda函数在本地计算机或AWS EC2上运行现有的S3 json？我不确定我是否理解这个问题，lambda是在S3远程运行的。您不想将其作为两个单独的操作来处理有什么原因吗？一个是在一次批量本地操作中从现有s3解决方案迁移到RDS，另一个是使用lambda捕获所有新文件？现有s3到RDS，您可以使用AWS EC2然后运行批量操作。我正在考虑将每个文件下载到EC2，您认为它会运行得更快吗？我正在考虑，很快就会检查出来。但是在ec2上运行它不是更简单吗？您必须保持ec2的实例运行。当你使用胶水的时候。该作业在aws中运行。您可以在需要时安排作业，其余工作将由aws处理。