Hadoop-如何提高我的案例的性能？_Hadoop_Elastic Map Reduce_Amazon Emr_Cascading

Hadoop-如何提高我的案例的性能？

hadoop

Hadoop-如何提高我的案例的性能？,hadoop,elastic-map-reduce,amazon-emr,cascading,Hadoop,Elastic Map Reduce,Amazon Emr,Cascading,目前我使用AWS-EMR作为集群。对于库，我使用级联输入数据存储在aws S3的目录中。该目录包含许多文件，每个文件的大小约为100mb（非压缩，纯文本），并且每天的文件数量很容易达到100个。每个文件的文件名都包含一个日期。在一天结束时，我会处理当天生成的所有文件目前，我的hadoop应用程序进程如下：使用S3文件夹作为输入点击，使用GlobHfs GlobHFS有一个自定义过滤器，用于过滤文件名，只接受今天的文件仅处理过滤后的文件，并将输出tap设置为S3 我的问题: 我应该使

目前我使用AWS-EMR作为集群。对于库，我使用级联

输入数据存储在aws S3的目录中。该目录包含许多文件，每个文件的大小约为100mb（非压缩，纯文本），并且每天的文件数量很容易达到100个。每个文件的文件名都包含一个日期。在一天结束时，我会处理当天生成的所有文件

目前，我的hadoop应用程序进程如下：

使用S3文件夹作为输入点击，使用
```
GlobHfs
```
```
GlobHFS
```
有一个自定义过滤器，用于过滤文件名，只接受今天的文件
仅处理过滤后的文件，并将输出tap设置为S3

我的问题:

我应该使用压缩吗？如果是，我应该使用什么压缩类型？我阅读了.gz压缩使得只有一个映射程序可以完成这项工作，在我的情况下，文件夹中有许多文件，这与此相关吗？我应该在每个文件中使用LZO吗
我应该存储较大的文件，还是当前的格式（许多较小的文件）足够好