Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/amazon-s3/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Xml 将4GB文件上载到Amazon-S3_Xml_Amazon S3_Amazon Ec2_Hadoop_Mapreduce - Fatal编程技术网

Xml 将4GB文件上载到Amazon-S3

Xml 将4GB文件上载到Amazon-S3,xml,amazon-s3,amazon-ec2,hadoop,mapreduce,Xml,Amazon S3,Amazon Ec2,Hadoop,Mapreduce,我正在做一些非常简单的数据挖掘(实际上,只是一个wordcound)作为我本科项目的研究项目 我将使用Amazon弹性MapReduce 我需要上传4GB.xml文件 最好的方法是什么 上传小的zip文件,然后在bucket中解压? 或者分割文件,上传并使用所有小文件进行流式MapReduce作业?您应该将此xml放入sequencefile并bzip2,或者bzip2并在云中解压缩。如果您想上传一个大文件,S3支持多部分上传。有关更多详细信息,请从开始。若目标是将这些数据放入EMR(Spark

我正在做一些非常简单的数据挖掘(实际上,只是一个wordcound)作为我本科项目的研究项目

我将使用Amazon弹性MapReduce

我需要上传4GB.xml文件

最好的方法是什么

上传小的zip文件,然后在bucket中解压?
或者分割文件,上传并使用所有小文件进行流式MapReduce作业?

您应该将此xml放入sequencefile并bzip2,或者bzip2并在云中解压缩。

如果您想上传一个大文件,S3支持多部分上传。有关更多详细信息,请从开始。

若目标是将这些数据放入EMR(Spark或Flink等),则在加载过程中利用并行性更需要多个压缩小文件,例如,默认情况下,EMR Spark可以处理S3中的tar/zip压缩文件

它必须是XML吗?4GB需要花费相当多的时间和成本。将其转换为json等不太详细的格式以将其转换为S3或至少压缩(如果您还没有)会更有效。谢谢,多部分上载似乎是正确的选择。例如,Hadoop使用1gb或更小的文件作为输入比使用1gb文件更好,还是没有区别?@Ekaterina Prigara抱歉,这是一个我无法准确回答的问题。