Apache spark 如何使用spark Stream的fileStream读取lz4压缩数据？_Apache Spark_Spark Streaming

Apache spark 如何使用spark Stream的fileStream读取lz4压缩数据？

apache-spark

Apache spark 如何使用spark Stream的fileStream读取lz4压缩数据？,apache-spark,spark-streaming,Apache Spark,Spark Streaming,在spark streaming中，我想使用fileStream监视目录。但该目录中的文件是使用lz4压缩的。因此，以下代码不会检测到新的lz4文件。如何检测这些新文件 val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat](gc.input_dir, (t: Path) => true, false).map(_._2.toString) 我知道textFile函数可以读取.lz

在spark streaming中，我想使用fileStream监视目录。但该目录中的文件是使用lz4压缩的。因此，以下代码不会检测到新的lz4文件。如何检测这些新文件

val list_join_action_stream = ssc.fileStream[LongWritable, Text, TextInputFormat](gc.input_dir, (t: Path) => true, false).map(_._2.toString)

我知道textFile函数可以读取.lz4格式的数据。但是我使用的是带有fileStream函数的spark streaming…

输入目录中的文件是否使用扩展名

.lz4

命名？可能重复是的，输入目录中的文件使用扩展名.lz4命名ext@vanekjar我在spark streaming中使用fileStream，你给我的问题是如何使用文本文件。Spark使用Hadoop输入格式读取文件。因此

.textFile

和

.fileStream

与

TextInputFormat

应该是相同的。Hadoop应该透明地处理输入压缩。你的Hadoop版本是什么？