Apache spark 在\u spark\u元数据中未找到任何内容_Apache Spark_Pyspark_Spark Streaming

Apache spark 在\u spark\u元数据中未找到任何内容

apache-spark pyspark

Apache spark 在\u spark\u元数据中未找到任何内容,apache-spark,pyspark,spark-streaming,Apache Spark,Pyspark,Spark Streaming,我正在尝试从特定文件夹读取CSV文件，并将相同内容写入本地pc上不同位置的其他CSV文件，以便于学习。我可以读取文件并在控制台上显示内容。但是，如果我想将其写入指定输出目录下的另一个CSV文件，我会得到一个名为_spark_metadata的文件夹，其中不包含任何内容我将整个代码一步一步粘贴到这里：创建Spark会话：从CSV文件读取写入CSV文件在包含CSV文件的本地输出目录的字符串路径中，我只得到一个文件夹\u spark\u metadata，它不包含CSV文件非常感谢您在这方

我正在尝试从特定文件夹读取CSV文件，并将相同内容写入本地pc上不同位置的其他CSV文件，以便于学习。我可以读取文件并在控制台上显示内容。但是，如果我想将其写入指定输出目录下的另一个CSV文件，我会得到一个名为_spark_metadata的文件夹，其中不包含任何内容

我将整个代码一步一步粘贴到这里：

创建Spark会话：从CSV文件读取写入CSV文件在包含CSV文件的本地输出目录的字符串路径中，我只得到一个文件夹\u spark\u metadata，它不包含CSV文件

非常感谢您在这方面提供的任何帮助

您不需要使用readStream来读取静态数据。您可以使用它从将文件添加到该文件夹的目录中进行读取

您只需要spark.read.csv

我这样做是因为我想学习spark流媒体部分，请注意，如果我向控制台df.writeStream\.formatconsole\.optionControl，false\.start\.waitintetermination。。。。它显示文件的内容，但问题在于writeStream to csv文件。如果仅执行spark.read.csv，则它不是流式数据集/数据帧。为了将数据添加到输入流，将不会读取文件夹中当前存在的csv文件。它们必须在Spark启动后移到文件夹中。我很糟糕，所以问题是我对读取CSV文件缺乏理解，而不是对写入CSV文件缺乏理解。是的，现在它也被写入CSV文件：但是您能解释一下为什么控制台格式中显示输出吗？您应该能够在Spark启动之前或之后发送Kafka数据。卡夫卡偏移量独立于火花处理

spark = SparkSession \
.builder \
.appName('csv01') \
.master('local[*]') \
.getOrCreate();

spark.conf.set("spark.sql.streaming.checkpointLocation", <String path to checkpoint location directory> )
userSchema = StructType().add("name", "string").add("age", "integer")

df = spark \
.readStream \
.schema(userSchema) \
.option("sep",",") \
.csv(<String path to local input directory containing CSV file>)

df.writeStream \
.format("csv") \
.option("path", <String path to local output directory containing CSV file>) \
.start()