Apache spark 在\u spark\u元数据中未找到任何内容

Apache spark 在\u spark\u元数据中未找到任何内容,apache-spark,pyspark,spark-streaming,Apache Spark,Pyspark,Spark Streaming,我正在尝试从特定文件夹读取CSV文件,并将相同内容写入本地pc上不同位置的其他CSV文件,以便于学习。我可以读取文件并在控制台上显示内容。但是,如果我想将其写入指定输出目录下的另一个CSV文件,我会得到一个名为_spark_metadata的文件夹,其中不包含任何内容 我将整个代码一步一步粘贴到这里: 创建Spark会话: 从CSV文件读取 写入CSV文件 在包含CSV文件的本地输出目录的字符串路径中,我只得到一个文件夹\u spark\u metadata,它不包含CSV文件 非常感谢您在这方

我正在尝试从特定文件夹读取CSV文件,并将相同内容写入本地pc上不同位置的其他CSV文件,以便于学习。我可以读取文件并在控制台上显示内容。但是,如果我想将其写入指定输出目录下的另一个CSV文件,我会得到一个名为_spark_metadata的文件夹,其中不包含任何内容

我将整个代码一步一步粘贴到这里:

创建Spark会话: 从CSV文件读取 写入CSV文件 在包含CSV文件的本地输出目录的字符串路径中,我只得到一个文件夹\u spark\u metadata,它不包含CSV文件


非常感谢您在这方面提供的任何帮助

您不需要使用readStream来读取静态数据。您可以使用它从将文件添加到该文件夹的目录中进行读取


您只需要spark.read.csv

我这样做是因为我想学习spark流媒体部分,请注意,如果我向控制台df.writeStream\.formatconsole\.optionControl,false\.start\.waitintetermination。。。。它显示文件的内容,但问题在于writeStream to csv文件。如果仅执行spark.read.csv,则它不是流式数据集/数据帧。为了将数据添加到输入流,将不会读取文件夹中当前存在的csv文件。它们必须在Spark启动后移到文件夹中。我很糟糕,所以问题是我对读取CSV文件缺乏理解,而不是对写入CSV文件缺乏理解。是的,现在它也被写入CSV文件:但是您能解释一下为什么控制台格式中显示输出吗?您应该能够在Spark启动之前或之后发送Kafka数据。卡夫卡偏移量独立于火花处理
spark = SparkSession \
.builder \
.appName('csv01') \
.master('local[*]') \
.getOrCreate();

spark.conf.set("spark.sql.streaming.checkpointLocation", <String path to checkpoint location directory> )
userSchema = StructType().add("name", "string").add("age", "integer")
df = spark \
.readStream \
.schema(userSchema) \
.option("sep",",") \
.csv(<String path to local input directory containing CSV file>)
df.writeStream \
.format("csv") \
.option("path", <String path to local output directory containing CSV file>) \
.start()