Hadoop Spark处理小文件（coalesce vs CombineFileInputFormat）_Hadoop_Apache Spark_Emr_Amazon Emr

Hadoop Spark处理小文件（coalesce vs CombineFileInputFormat）

hadoop apache-spark

Hadoop Spark处理小文件（coalesce vs CombineFileInputFormat）,hadoop,apache-spark,emr,amazon-emr,Hadoop,Apache Spark,Emr,Amazon Emr,我有一个用例，S3中有数百万个小文件需要Spark处理。我有两个减少任务数量的选项： 1.使用合并 2.扩展CombineFileInputFormat 但我不清楚bot对性能的影响以及何时使用bot 另外，CombineFileInputFormat是一个抽象类，这意味着我需要提供我的实现。但是Spice API（NeavaPiHoDopRDD）将类名命名为PARAM，我不确定如何通过可配置的Max（SpultMistabase < P>）考虑这样的场景的另一个很棒的选择是 SpkFraveX

我有一个用例，S3中有数百万个小文件需要Spark处理。我有两个减少任务数量的选项： 1.使用合并 2.扩展CombineFileInputFormat

但我不清楚bot对性能的影响以及何时使用bot

另外，CombineFileInputFormat是一个抽象类，这意味着我需要提供我的实现。但是Spice API（NeavaPiHoDopRDD）将类名命名为PARAM，我不确定如何通过可配置的Max（SpultMistabase

< P>）考虑这样的场景的另一个很棒的选择是<代码> SpkFraveX.WORTEXTEXFILE（）/<代码>，它为每个文件创建一个记录，其名称为<代码>键<代码>，内容作为<代码>值 >参见