Apache spark 无法从Spark streaming中的单个文件读取流数据

Apache spark 无法从Spark streaming中的单个文件读取流数据,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我试图从文本文件中读取流数据,该文本文件使用Spark streaming API“textFileStream”不断追加。但无法通过Spark streaming读取连续数据。如何在Spark中实现它?这是一种预期行为。对于(如fileStream): 必须通过将文件自动移动或重命名到数据目录中,在dataDirectory中创建这些文件 一旦移动,文件不得更改。因此,如果连续追加文件,则不会读取新数据 如果您想连续读取附加的内容,您必须创建自己的源代码,或者使用单独的进程来监视更改,并将

我试图从文本文件中读取流数据,该文本文件使用Spark streaming API“textFileStream”不断追加。但无法通过Spark streaming读取连续数据。如何在Spark中实现它?

这是一种预期行为。对于(如
fileStream
):

  • 必须通过将文件自动移动或重命名到数据目录中,在dataDirectory中创建这些文件
  • 一旦移动,文件不得更改。因此,如果连续追加文件,则不会读取新数据
如果您想连续读取附加的内容,您必须创建自己的源代码,或者使用单独的进程来监视更改,并将记录推送到例如Kafka(尽管很少将Spark与支持附加的文件系统结合使用)