Apache spark 无法从Spark streaming中的单个文件读取流数据
我试图从文本文件中读取流数据,该文本文件使用Spark streaming API“textFileStream”不断追加。但无法通过Spark streaming读取连续数据。如何在Spark中实现它?这是一种预期行为。对于(如Apache spark 无法从Spark streaming中的单个文件读取流数据,apache-spark,spark-streaming,Apache Spark,Spark Streaming,我试图从文本文件中读取流数据,该文本文件使用Spark streaming API“textFileStream”不断追加。但无法通过Spark streaming读取连续数据。如何在Spark中实现它?这是一种预期行为。对于(如fileStream): 必须通过将文件自动移动或重命名到数据目录中,在dataDirectory中创建这些文件 一旦移动,文件不得更改。因此,如果连续追加文件,则不会读取新数据 如果您想连续读取附加的内容,您必须创建自己的源代码,或者使用单独的进程来监视更改,并将
fileStream
):
- 必须通过将文件自动移动或重命名到数据目录中,在dataDirectory中创建这些文件
- 一旦移动,文件不得更改。因此,如果连续追加文件,则不会读取新数据