Apache flink 在Flink中读取Hadoop序列文件
如何在Flink中读取Hadoop序列文件?我用下面的方法解决了多个问题 我有:Apache flink 在Flink中读取Hadoop序列文件,apache-flink,Apache Flink,如何在Flink中读取Hadoop序列文件?我用下面的方法解决了多个问题 我有: DataSource<String> source = env.readFile(new SequenceFileInputFormat(config), filePath); 及 } 问题之一:无法读取用户代码包装器:SequenceFileInputFormat。获得InputFormat后,可以调用ExecutionEnvironment.createInput来创建数据源 对于Sequence
DataSource<String> source = env.readFile(new SequenceFileInputFormat(config), filePath);
及
}
问题之一:无法读取用户代码包装器:SequenceFileInputFormat。获得InputFormat后,可以调用ExecutionEnvironment.createInput来创建数据源
对于SequenceFile,数据的类型始终为Tuple2,因此您必须使用映射函数转换为您试图读取的任何类型
我使用这段代码来读取包含级联元组的SequenceFile
Job job = Job.getInstance();
FileInputFormat.addInputPath(job, new Path(directory));
env.createInput(HadoopInputs.createHadoopInput(new SequenceFileInputFormat<Tuple, Tuple>(), Tuple.class, Tuple.class, job);
Job job = Job.getInstance();
FileInputFormat.addInputPath(job, new Path(directory));
env.createInput(HadoopInputs.createHadoopInput(new SequenceFileInputFormat<Tuple, Tuple>(), Tuple.class, Tuple.class, job);