Java 使用NewHadoopRDD时如何给出文件名？_Java_Scala_Apache Spark

Java 使用NewHadoopRDD时如何给出文件名？

java scala apache-spark

Java 使用NewHadoopRDD时如何给出文件名？,java,scala,apache-spark,Java,Scala,Apache Spark,我试图在Spark中使用newAPIHadoopRDD函数，但我发现构造函数中没有使用文件名的参数。那么，在这种情况下如何设置文件名呢？这是使用org.apache.hadoop.conf.Configuration配置的，详细信息取决于您使用的InputFormat。例如TextInputFormat使用mapred.input.dir 通常，如果要使用基于文件的源代码，请使用newAPIHadoopFile这是使用org.apache.hadoop.conf.Configuration配置的

我试图在Spark中使用newAPIHadoopRDD函数，但我发现构造函数中没有使用文件名的参数。那么，在这种情况下如何设置文件名呢？

这是使用

org.apache.hadoop.conf.Configuration

配置的，详细信息取决于您使用的

InputFormat

。例如

TextInputFormat

使用

mapred.input.dir

通常，如果要使用基于文件的源代码，请使用

newAPIHadoopFile

这是使用

org.apache.hadoop.conf.Configuration

配置的，详细信息取决于您使用的

输入格式。例如TextInputFormat
使用mapred.input.dir

通常，如果您想使用基于文件的源代码，请使用newAPIHadoopFile
，因此，基本上，我只是将文件放在一个目录中，说“my_input_dir”，然后设置val c=new Configuration（sc.hadoopConfiguration）；c、 设置（“mapred.input.dir”、“my_input_dir”）；因此，基本上，我只是将我的文件放在一个目录中，说“my_input_dir”，然后设置val c=new Configuration（sc.hadoopConfiguration）；c、 设置（“mapred.input.dir”、“my_input_dir”）；