Amazon web services 如何设置AWS数据管道以将本地配置单元数据复制到S3？_Amazon Web Services_Amazon Data Pipeline

Amazon web services 如何设置AWS数据管道以将本地配置单元数据复制到S3？

amazon-web-services

Amazon web services 如何设置AWS数据管道以将本地配置单元数据复制到S3？,amazon-web-services,amazon-data-pipeline,Amazon Web Services,Amazon Data Pipeline,我通读了有关MySQL和RDS的文档。但找不到任何关于将内部配置单元/Hadoop数据移动到S3的信息。我很欣赏任何链接或文章。您可以使用它将HDFS数据从本地复制到S3，反之亦然。通常，数据管道在AWS云中实例化Ec2Resource实例，并在此实例上运行TaskRunner。然后在此实例上运行管道中标记为Ec2Resource“runsOn”的相应活动。有关详细信息，请参阅文档但在EC2实例上运行的任何S3DistCp都无法访问本地HDF。要访问本地资源，相应的活动必须由运行在本地设备上的

我通读了有关MySQL和RDS的文档。但找不到任何关于将内部配置单元/Hadoop数据移动到S3的信息。我很欣赏任何链接或文章。

您可以使用它将HDFS数据从本地复制到S3，反之亦然。

通常，数据管道在AWS云中实例化Ec2Resource实例，并在此实例上运行TaskRunner。然后在此实例上运行管道中标记为Ec2Resource“runsOn”的相应活动。有关详细信息，请参阅文档

但在EC2实例上运行的任何S3DistCp都无法访问本地HDF。要访问本地资源，相应的活动必须由运行在本地设备上的TaskRunner执行。有关如何设置的详细信息，请参阅文档

TaskRunner是AWS提供的java独立应用程序，可以在任何自我管理的机器上手动运行。它通过AWSAPI连接到数据管道服务，以获取关于挂起执行的任务的元数据，然后在其运行的同一个框中执行这些任务

在自动Ec2Resource资源调配的情况下，数据管道实例化ec2实例并在其上运行相同的TaskRunner，所有这些对我们来说都是透明的。

您是指文档Amazon Web Services–Amazon EMR最佳实践中使用S3DistCp将数据从Hadoop集群复制到Amazon S3的主题吗？如何将这些步骤设置为AWS数据管线的一部分？我指的是在数据管线中运行shell命令活动，通过使用s3distcp复制数据