Xml 将4GB文件上载到Amazon-S3_Xml_Amazon S3_Amazon Ec2_Hadoop_Mapreduce

Xml 将4GB文件上载到Amazon-S3

xml amazon-s3 amazon-ec2 hadoop mapreduce

Xml 将4GB文件上载到Amazon-S3,xml,amazon-s3,amazon-ec2,hadoop,mapreduce,Xml,Amazon S3,Amazon Ec2,Hadoop,Mapreduce,我正在做一些非常简单的数据挖掘（实际上，只是一个wordcound）作为我本科项目的研究项目我将使用Amazon弹性MapReduce 我需要上传4GB.xml文件最好的方法是什么上传小的zip文件，然后在bucket中解压？或者分割文件，上传并使用所有小文件进行流式MapReduce作业？您应该将此xml放入sequencefile并bzip2，或者bzip2并在云中解压缩。如果您想上传一个大文件，S3支持多部分上传。有关更多详细信息，请从开始。若目标是将这些数据放入EMR（Spark

我正在做一些非常简单的数据挖掘（实际上，只是一个wordcound）作为我本科项目的研究项目

我将使用Amazon弹性MapReduce

我需要上传4GB.xml文件

最好的方法是什么

上传小的zip文件，然后在bucket中解压？

或者分割文件，上传并使用所有小文件进行流式MapReduce作业？

您应该将此xml放入sequencefile并bzip2，或者bzip2并在云中解压缩。

如果您想上传一个大文件，S3支持多部分上传。有关更多详细信息，请从开始。

若目标是将这些数据放入EMR（Spark或Flink等），则在加载过程中利用并行性更需要多个压缩小文件，例如，默认情况下，EMR Spark可以处理S3中的tar/zip压缩文件

它必须是XML吗？4GB需要花费相当多的时间和成本。将其转换为json等不太详细的格式以将其转换为S3或至少压缩（如果您还没有）会更有效。谢谢，多部分上载似乎是正确的选择。例如，Hadoop使用1gb或更小的文件作为输入比使用1gb文件更好，还是没有区别？@Ekaterina Prigara抱歉，这是一个我无法准确回答的问题。