Hadoop 在EMR中访问S3中的数据
我有一个存储在S3中的大型文本文件,可以在多节点集群上使用“S3:///folder/folder/file”格式从EMR(比如PIG)中直接访问它 我的问题是关于数据传输到数据节点的效率。我相信S3中的数据以与HDFS类似的方式存储在块中Hadoop 在EMR中访问S3中的数据,hadoop,amazon-s3,amazon-emr,emr,Hadoop,Amazon S3,Amazon Emr,Emr,我有一个存储在S3中的大型文本文件,可以在多节点集群上使用“S3:///folder/folder/file”格式从EMR(比如PIG)中直接访问它 我的问题是关于数据传输到数据节点的效率。我相信S3中的数据以与HDFS类似的方式存储在块中 读取文件时,如何将其拆分并发送到每个数据节点 数据节点的分配是否由主节点/作业跟踪器控制 将文件复制到HDFS并访问它是否更有效 通常,在拆分时,从hdfs读取和从s3读取没有区别S3FileSystemclass(s3输入的存储类)将使用公共位置和偏移量来