Amazon s3 批量将数据从RDBMs传输到S3的最佳方法
我需要将数据(频率=每晚一次传输)从on-prem关系数据库(SQL server)传输到AWS S3(需要csv文件和csv格式)。数据大小约为500GB。由于没有疾病控制中心,每天晚上都会复制整个数据库 当然,我们可以考虑拼花地板或orc等格式,但在我们的用例中csv是一项要求 在将数据转换为csv并发送到S3之前,我曾想过使用一个带有EMR spark集群的JDBC链接从on-prem RDBMs数据库导入数据,但我不确定它是否是最理想的体系结构 对于JDBC,我不知道是否有一种方法可以使多个连接(顺便说一句,emr spark和sqlserver)并行以加速传输 它是一个VPN连接,连接prem站点和aws部分Amazon s3 批量将数据从RDBMs传输到S3的最佳方法,amazon-s3,rdbms,Amazon S3,Rdbms,我需要将数据(频率=每晚一次传输)从on-prem关系数据库(SQL server)传输到AWS S3(需要csv文件和csv格式)。数据大小约为500GB。由于没有疾病控制中心,每天晚上都会复制整个数据库 当然,我们可以考虑拼花地板或orc等格式,但在我们的用例中csv是一项要求 在将数据转换为csv并发送到S3之前,我曾想过使用一个带有EMR spark集群的JDBC链接从on-prem RDBMs数据库导入数据,但我不确定它是否是最理想的体系结构 对于JDBC,我不知道是否有一种方法可以使
有人能建议我最好的方法,以最快的传输尊重aws良好架构的原则吗 您可以使用或连接到内部部署数据库,并安排spark作业,每天将数据移动到S3。我建议使用Glue来避免管理EMR集群的麻烦 您可以使用或连接到内部部署数据库,并安排spark作业,每天将数据移动到S3。我建议使用Glue来避免管理EMR集群的麻烦 使用ApacheSpark传输500gb数据是一个很大的问题,因为spark更多的是处理大型数据集,而不是接收 所以这里不应该考虑AWS胶水 现在,您可以使用AWS EMR并使用更多映射器将SQOOP导入到s3存储桶,因为这将大大提高性能,并且根据您的rdbms配置,500 GB数据可以在不到2小时的时间内传输 如果您使用的是AWS,则可以考虑使用其他工具
这是一种快速可靠的日常数据传输方式,其配置也非常简单。 你可以通过它
这是aws推荐的第二种将数据从rdbms移动到s3的方法。您可以使用此选项将现有SQL脚本转换为红移兼容脚本,还可以将数据从rdbms移动到s3。这需要一些安装方面的专业知识。读一读
这是我首选的数据迁移方式,但这需要您具备SQOOP知识。如果您对SQOOP感到满意,那么选择此选项将作业创建为临时emr集群,并使用aws step函数进行编排
希望能有所帮助。使用ApacheSpark传输500gb数据是一个很大的难题,因为spark更多的是处理大型数据集,而不是摄取 所以这里不应该考虑AWS胶水 现在,您可以使用AWS EMR并使用更多映射器将SQOOP导入到s3存储桶,因为这将大大提高性能,并且根据您的rdbms配置,500 GB数据可以在不到2小时的时间内传输 如果您使用的是AWS,则可以考虑使用其他工具
这是一种快速可靠的日常数据传输方式,其配置也非常简单。 你可以通过它
这是aws推荐的第二种将数据从rdbms移动到s3的方法。您可以使用此选项将现有SQL脚本转换为红移兼容脚本,还可以将数据从rdbms移动到s3。这需要一些安装方面的专业知识。读一读
这是我首选的数据迁移方式,但这需要您具备SQOOP知识。如果您对SQOOP感到满意,那么选择此选项将作业创建为临时emr集群,并使用aws step函数进行编排
希望有帮助。您使用哪种数据库引擎?每天500GB中有多少变化?这需要传输大量数据,因此如果可能的话,您应该尽量减少数据量。你能告诉我们更多关于*一旦CSV文件在Amazon S3中,你打算如何使用它们吗?这可能会影响您对压缩、分区和文件格式的选择。请随意编辑您的问题以包含此信息,而不是将其作为评论添加。谢谢John Rotenstein,我添加了其他信息。我最担心的是传输此数据所需的时间。数据链路的速度是多少?即使超过100 Mbps以太网,也需要11小时。()是的,约翰,不幸的是它不会超过100Mbps。出于这个原因,我想到了另一个场景:从on-prem SqlServer数据库生成备份,并在通过vpn传递之前对其进行压缩。然后,在aws端创建另一个SqlServer数据库,最后从该数据库中提取csv文件。您觉得这个解决方案怎么样?您应该首先测量这些压缩文件的大小,看看它们是否适合在所需的传输时间内传输。我还可以问一下,为什么您希望在AmazonS3上每天制作500GB的CSV文件?什么将使用这些文件?如果您提供更多信息,您可能会收到更相关的答案。您使用哪个数据库引擎?每天500GB中有多少变化?这需要传输大量数据,因此如果可能的话,您应该尽量减少数据量。你能告诉我们更多关于*一旦CSV文件在Amazon S3中,你打算如何使用它们吗?这可能会影响您对压缩、分区和文件格式的选择。请随意编辑您的问题以包含此信息,而不是将其作为评论添加。谢谢John Rotenstein,我添加了其他信息。我最担心的是传输此数据所需的时间。数据链路的速度是多少?即使超过100 Mbps以太网,也需要11小时。()是的,约翰,不幸的是它不会超过100Mbps。出于这个原因,我想到了另一个场景:生成备份