Apache flink Flink,我在哪里可以找到ExecutionEnvironment#readSequenceFile方法?

Apache flink Flink,我在哪里可以找到ExecutionEnvironment#readSequenceFile方法?,apache-flink,Apache Flink,我有hdfs数据文件,最初由mapreduce作业创建,输出设置如下 job.setOutputKeyClass(BytesWritable.class); job.setOutputValueClass(BytesWritable.class); job.setOutputFormatClass(SequenceFileAsBinaryOutputFormat.class); SequenceFileAsBinaryOutputFormat.setOutputCompressionType(j

我有hdfs数据文件,最初由mapreduce作业创建,输出设置如下

job.setOutputKeyClass(BytesWritable.class);
job.setOutputValueClass(BytesWritable.class);
job.setOutputFormatClass(SequenceFileAsBinaryOutputFormat.class);
SequenceFileAsBinaryOutputFormat.setOutputCompressionType(job, CompressionType.BLOCK);
现在我试图用Flink DataSet API(版本1.5.6)读取这些文件,我查看了,但不知道如何做到这一点

  • 在文档中,有一个API“readSequenceFile”,我只是在类ExecutionEnvironment中找不到它,我可以找到“readCsvFile”、“readTextFile”,但不是这个
  • 有一个通用的“readFile(inputFormat,path)”,但我不知道inputFormat是什么,似乎这个API不接受hadoop输入格式,比如“SequenceFileAsBinaryInputFormat”

  • 有人能在这里说明一下吗?非常感谢。

    我想您错过的是一个额外的依赖项:
    org.apache.flink“%%”flink-hadoop兼容性“%1.7.2

    添加此选项后,您可以运行:

    val env = ExecutionEnvironment.getExecutionEnvironment
    env.createInput(HadoopInputs.readSequenceFile[Long, String](classOf[Long], classOf[String], "/data/wherever"))
    
    请在此处查找有关内容和方式的更详细文档


    希望这有帮助

    谢谢,你救了我一天。你好,托比什,我想使用SequenceFileAsBinaryOutputFormat将结果输出到hdfs,根据你提供的上述链接,我似乎可以使用HadoopOutputFormat,但它需要初始化mapreduce作业实例,这是否意味着它会在内部触发mapreduce作业?我不确定。我只是想试试。你应该能够看到你的工作经理在做什么。很抱歉