Apache spark 如何设置批处理的文档数量?
对于Spark 2.2.0,检查点的工作原理与版本略有不同。创建一个提交文件夹,在每个批处理完成后,一个文件被写入该文件夹 我所面临的情况是,我有大约10k条记录,并且说我的流媒体作业在处理5k条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从一开始就开始,并且存在5k条记录的数据重复 据我所知,当有提交文件写入时,当您重新启动它时,它会从最新的偏移量中拾取数据,否则它会重新处理上一个成功批处理中的数据 如何设置批处理的单据数量 有没有办法设置批处理中要处理的文档数量Apache spark 如何设置批处理的文档数量?,apache-spark,spark-structured-streaming,checkpointing,Apache Spark,Spark Structured Streaming,Checkpointing,对于Spark 2.2.0,检查点的工作原理与版本略有不同。创建一个提交文件夹,在每个批处理完成后,一个文件被写入该文件夹 我所面临的情况是,我有大约10k条记录,并且说我的流媒体作业在处理5k条记录后大约在中间失败,没有文件写入检查点目录中的提交文件夹,因此当我重新启动作业时,它从一开始就开始,并且存在5k条记录的数据重复 据我所知,当有提交文件写入时,当您重新启动它时,它会从最新的偏移量中拾取数据,否则它会重新处理上一个成功批处理中的数据 如何设置批处理的单据数量 有没有办法设置批处理中要处
对文件使用
maxFilesPerTrigger
,对kafka
格式使用maxOffsetsPerTrigger
。源代码是什么?“文档”记录是否在源中?源是JSON数据