Hadoop Spark处理小文件(coalesce vs CombineFileInputFormat)

Hadoop Spark处理小文件(coalesce vs CombineFileInputFormat),hadoop,apache-spark,emr,amazon-emr,Hadoop,Apache Spark,Emr,Amazon Emr,我有一个用例,S3中有数百万个小文件需要Spark处理。我有两个减少任务数量的选项: 1.使用合并 2.扩展CombineFileInputFormat 但我不清楚bot对性能的影响以及何时使用bot 另外,CombineFileInputFormat是一个抽象类,这意味着我需要提供我的实现。但是Spice API(NeavaPiHoDopRDD)将类名命名为PARAM,我不确定如何通过可配置的Max(SpultMistabase < P>)考虑这样的场景的另一个很棒的选择是 SpkFraveX

我有一个用例,S3中有数百万个小文件需要Spark处理。我有两个减少任务数量的选项: 1.使用合并 2.扩展CombineFileInputFormat

但我不清楚bot对性能的影响以及何时使用bot


另外,CombineFileInputFormat是一个抽象类,这意味着我需要提供我的实现。但是Spice API(NeavaPiHoDopRDD)将类名命名为PARAM,我不确定如何通过可配置的Max(SpultMistabase

< P>)考虑这样的场景的另一个很棒的选择是<代码> SpkFraveX.WORTEXTEXFILE()/<代码>,它为每个文件创建一个记录,其名称为<代码>键<代码>,内容作为<代码>值 >参见