Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 如何设置批处理的文档数量?_Apache Spark_Spark Structured Streaming_Checkpointing - Fatal编程技术网

Apache spark 如何设置批处理的文档数量?

Apache spark 如何设置批处理的文档数量?,apache-spark,spark-structured-streaming,checkpointing,Apache Spark,Spark Structured Streaming,Checkpointing,对于Spark 2.2.0,检查点的工作原理与版本略有不同。创建一个提交文件夹,在每个批处理完成后,一个文件被写入该文件夹 我所面临的情况是,我有大约10k条记录,并且说我的流媒体作业在处理5k条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从一开始就开始,并且存在5k条记录的数据重复 据我所知,当有提交文件写入时,当您重新启动它时,它会从最新的偏移量中拾取数据,否则它会重新处理上一个成功批处理中的数据 如何设置批处理的单据数量 有没有办法设置批处理中要处

对于Spark 2.2.0,检查点的工作原理与版本略有不同。创建一个提交文件夹,在每个批处理完成后,一个文件被写入该文件夹

我所面临的情况是,我有大约10k条记录,并且说我的流媒体作业在处理5k条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从一开始就开始,并且存在5k条记录的数据重复

据我所知,当有提交文件写入时,当您重新启动它时,它会从最新的偏移量中拾取数据,否则它会重新处理上一个成功批处理中的数据

如何设置批处理的单据数量

有没有办法设置批处理中要处理的文档数量


对文件使用
maxFilesPerTrigger
,对
kafka
格式使用
maxOffsetsPerTrigger

源代码是什么?“文档”记录是否在源中?源是JSON数据