Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/sorting/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Sorting 在aws S3中对大文件进行排序_Sorting_Amazon Web Services_Amazon S3_Bigdata - Fatal编程技术网

Sorting 在aws S3中对大文件进行排序

Sorting 在aws S3中对大文件进行排序,sorting,amazon-web-services,amazon-s3,bigdata,Sorting,Amazon Web Services,Amazon S3,Bigdata,我的S3存储桶中有一个.zip格式的大文件(属性文件)。解压时约为30GB。该文件每2天更新一次 INDEX HIEGHT GENDER AGE 00125 155 MALE 15 01002 161 FEMALE 18 00410 173 MALE 17 00001 160 MALE 20 00010 159 FEMALE 22 . . . 我的用例是这样的,我想在一次程序运行中迭代一次排序的属性文件。由于压缩文件大约为3.6GB,并且每2天更新一次,因此我的代码每次都从S3下载它。(可

我的S3存储桶中有一个.zip格式的大文件(属性文件)。解压时约为30GB。该文件每2天更新一次

INDEX HIEGHT GENDER AGE
00125 155 MALE 15
01002 161 FEMALE 18
00410 173 MALE 17
00001 160 MALE 20
00010 159 FEMALE 22
.
.
.  
我的用例是这样的,我想在一次程序运行中迭代一次排序的属性文件。由于压缩文件大约为3.6GB,并且每2天更新一次,因此我的代码每次都从S3下载它。(可能我可以使用缓存,但目前我没有使用。)

我想对文件进行排序。由于解压后的文件很大,每次都会增长,所以我不想在代码运行期间解压它

我正在努力实现以下目标:-

我还有其他文件-公制文件。它们的大小相对较小(~20-30MB),并且已排序

INDEX MARKS
00102 45
00125 62
00342 134
00410 159
.
.
.
使用索引,我想为每个度量文件创建度量属性文件。如果属性文件也被排序,我可以做一些类似于合并两个排序列表的事情,只获取公共索引行。它需要O(属性文件的大小+度量文件的大小)空间和时间


排序它(属性文件)的最佳方式是什么?首选aws解决方案。

我不能使用aws Lambda,因为其/tmp大小限制为512 mb。如果您不/不能使用lambda,您仍然可以使用EMR并处理zip文件zip文件中的数据格式是什么(例如它是压缩的CSV文件)?您能否提供更多关于您希望如何处理该文件的详细信息?例如,您是否只需要按排序顺序处理数据?您是否在某处输出结果?如果您能提供更多细节,我们可以建议更合适的解决方案。(例如,亚马逊电子病历在某些情况下可能很有用,这取决于你打算如何处理生成的数据。)@JohnRotenstein:就像每行有5-6个单词,第一个单词被用作索引来排序。其余的是此特定索引的属性。还有第二个文件,大约20MB小,已排序。此文件包含一些与其相关联的索引和指标。我想添加属性和指标。我想做一些事情,比如合并两个排序列表,只保留普通列表。请随意使用两个文件的示例和此类解释更新您的问题,以便人们可以提出合适的选项。越详细,就越有可能得到有用的答案。