Amazon s3 Hadoop将文件从本地计算机上载到AmazonS3

Amazon s3 Hadoop将文件从本地计算机上载到AmazonS3,amazon-s3,amazon-ec2,hadoop,hdfs,Amazon S3,Amazon Ec2,Hadoop,Hdfs,我正在开发一个Java MapReduce应用程序,该应用程序必须能够为一些图片提供上传服务,这些图片可以从用户的本地机器上传到S3存储桶 问题是该应用程序必须在EC2集群上运行,所以我不确定在复制文件时如何引用本地计算机。copyFromLocalFile(..)方法需要来自本地计算机的路径,该计算机将是EC2群集 我不确定我是否正确地陈述了这个问题,有人能理解我的意思吗 谢谢在您能够通过MapReduce使用这些文件之前,您需要将这些文件从用户机器获取到至少一个节点 FileSystem和F

我正在开发一个Java MapReduce应用程序,该应用程序必须能够为一些图片提供上传服务,这些图片可以从用户的本地机器上传到S3存储桶

问题是该应用程序必须在EC2集群上运行,所以我不确定在复制文件时如何引用本地计算机。copyFromLocalFile(..)方法需要来自本地计算机的路径,该计算机将是EC2群集

我不确定我是否正确地陈述了这个问题,有人能理解我的意思吗


谢谢

在您能够通过MapReduce使用这些文件之前,您需要将这些文件从用户机器获取到至少一个节点

FileSystem
FileUtil
函数指的是
HDFS
或集群中一个节点的本地磁盘上的路径。
它不能引用用户的本地系统。(如果您进行了一些ssh设置,可能会……)

您还可以调查s3distcp:


ApacheDistcp是一种开源工具,可用于复制大量数据。DistCp使用MapReduce以分布式方式进行复制,跨多台服务器共享复制、错误处理、恢复和报告任务。S3DistCp是DistCp的一个扩展,它经过优化,可以与amazonweb服务,特别是amazonsimplestorageservice(amazons3)一起使用。使用S3DistCp,您可以高效地将大量数据从AmazonS3复制到HDFS中,并通过AmazonElasticMapReduce(AmazonEMR)作业流进行处理。您还可以使用S3DistCp在AmazonS3存储桶之间或从HDFS复制数据到AmazonS3

这里不清楚的是用户(您希望从其本地计算机上载图像)是如何与此应用程序交互的。你能分享更多的架构细节吗?