Apache spark 如何设置批处理的文档数量？_Apache Spark_Spark Structured Streaming_Checkpointing

Apache spark 如何设置批处理的文档数量？

apache-spark

Apache spark 如何设置批处理的文档数量？,apache-spark,spark-structured-streaming,checkpointing,Apache Spark,Spark Structured Streaming,Checkpointing,对于Spark 2.2.0，检查点的工作原理与版本略有不同。创建一个提交文件夹，在每个批处理完成后，一个文件被写入该文件夹我所面临的情况是，我有大约10k条记录，并且说我的流媒体作业在处理5k条记录后大约在中间失败，没有文件写入检查点目录中的提交文件夹，因此当我重新启动作业时，它从一开始就开始，并且存在5k条记录的数据重复据我所知，当有提交文件写入时，当您重新启动它时，它会从最新的偏移量中拾取数据，否则它会重新处理上一个成功批处理中的数据如何设置批处理的单据数量有没有办法设置批处理中要处

对于Spark 2.2.0，检查点的工作原理与版本略有不同。创建一个提交文件夹，在每个批处理完成后，一个文件被写入该文件夹

我所面临的情况是，我有大约10k条记录，并且说我的流媒体作业在处理5k条记录后大约在中间失败，没有文件写入检查点目录中的提交文件夹，因此当我重新启动作业时，它从一开始就开始，并且存在5k条记录的数据重复

据我所知，当有提交文件写入时，当您重新启动它时，它会从最新的偏移量中拾取数据，否则它会重新处理上一个成功批处理中的数据

如何设置批处理的单据数量

有没有办法设置批处理中要处理的文档数量

对文件使用

maxFilesPerTrigger

，对

kafka

格式使用

maxOffsetsPerTrigger

。

源代码是什么？“文档”记录是否在源中？源是JSON数据