Apache spark 如何使用spark Stream的fileStream读取lz4压缩数据?

Apache spark 如何使用spark Stream的fileStream读取lz4压缩数据?,apache-spark,spark-streaming,Apache Spark,Spark Streaming,在spark streaming中,我想使用fileStream监视目录。但该目录中的文件是使用lz4压缩的。因此,以下代码不会检测到新的lz4文件。如何检测这些新文件 val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat](gc.input_dir, (t: Path) => true, false).map(_._2.toString) 我知道textFile函数可以读取.lz

在spark streaming中,我想使用fileStream监视目录。但该目录中的文件是使用lz4压缩的。因此,以下代码不会检测到新的lz4文件。如何检测这些新文件

val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat](gc.input_dir, (t: Path) => true, false).map(_._2.toString)

我知道textFile函数可以读取.lz4格式的数据。但是我使用的是带有fileStream函数的spark streaming…

输入目录中的文件是否使用扩展名
.lz4
命名?可能重复是的,输入目录中的文件使用扩展名.lz4命名ext@vanekjar我在spark streaming中使用fileStream,你给我的问题是如何使用文本文件。Spark使用Hadoop输入格式读取文件。因此
.textFile
.fileStream
TextInputFormat
应该是相同的。Hadoop应该透明地处理输入压缩。你的Hadoop版本是什么?