Python 高效地将s3文件导入Postgres

Python 高效地将s3文件导入Postgres,python,postgresql,amazon-web-services,amazon-s3,amazon-rds,Python,Postgresql,Amazon Web Services,Amazon S3,Amazon Rds,我目前正在使用AWS S3作为许多json文件的存储(200万个,正在计算)。 我想把所有这些文件放在一个数据库中,一个Postgres RDS中 我目前正在使用AWS Lambda解析文件,它比在本地运行要慢得多。此外,使用lambda在Python中运行脚本和安装外部模块的工作非常糟糕 有没有一种更快更有效的方法来处理S3文件、解析它们并将它们放入Postgres而无需下载它们 它需要在每个新文件上运行(这就是我选择lambda的原因),并且需要将它划分为两个表,因此它不仅仅是按原样放置文件

我目前正在使用AWS S3作为许多json文件的存储(200万个,正在计算)。 我想把所有这些文件放在一个数据库中,一个Postgres RDS中

我目前正在使用AWS Lambda解析文件,它比在本地运行要慢得多。此外,使用lambda在Python中运行脚本和安装外部模块的工作非常糟糕

有没有一种更快更有效的方法来处理S3文件、解析它们并将它们放入Postgres而无需下载它们


它需要在每个新文件上运行(这就是我选择lambda的原因),并且需要将它划分为两个表,因此它不仅仅是按原样放置文件(脚本已经将文件提取并解析到正确的表中)。

您可以使用aws glue。但这将花费您每次运行作业的成本。

Q:您的lambda函数在本地计算机或AWS EC2上运行现有的S3 json?我不确定我是否理解这个问题,lambda是在S3远程运行的。您不想将其作为两个单独的操作来处理有什么原因吗?一个是在一次批量本地操作中从现有s3解决方案迁移到RDS,另一个是使用lambda捕获所有新文件?现有s3到RDS,您可以使用AWS EC2然后运行批量操作。我正在考虑将每个文件下载到EC2,您认为它会运行得更快吗?我正在考虑,很快就会检查出来。但是在ec2上运行它不是更简单吗?您必须保持ec2的实例运行。当你使用胶水的时候。该作业在aws中运行。您可以在需要时安排作业,其余工作将由aws处理。