Apache spark 无法从Spark streaming中的单个文件读取流数据_Apache Spark_Spark Streaming

Apache spark 无法从Spark streaming中的单个文件读取流数据

apache-spark

Apache spark 无法从Spark streaming中的单个文件读取流数据,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我试图从文本文件中读取流数据，该文本文件使用Spark streaming API“textFileStream”不断追加。但无法通过Spark streaming读取连续数据。如何在Spark中实现它？这是一种预期行为。对于（如fileStream）：必须通过将文件自动移动或重命名到数据目录中，在dataDirectory中创建这些文件一旦移动，文件不得更改。因此，如果连续追加文件，则不会读取新数据如果您想连续读取附加的内容，您必须创建自己的源代码，或者使用单独的进程来监视更改，并将

我试图从文本文件中读取流数据，该文本文件使用Spark streaming API“textFileStream”不断追加。但无法通过Spark streaming读取连续数据。如何在Spark中实现它？

这是一种预期行为。对于（如

fileStream

）：

必须通过将文件自动移动或重命名到数据目录中，在dataDirectory中创建这些文件
一旦移动，文件不得更改。因此，如果连续追加文件，则不会读取新数据

如果您想连续读取附加的内容，您必须创建自己的源代码，或者使用单独的进程来监视更改，并将记录推送到例如Kafka（尽管很少将Spark与支持附加的文件系统结合使用）