Apache spark 在Pyspark中使用maxBytesPerTrigger的正确方法是什么?
我正在使用Spark readStream并设置选项maxBytesPerTrigger,如下所示:Apache spark 在Pyspark中使用maxBytesPerTrigger的正确方法是什么?,apache-spark,pyspark,databricks,spark-structured-streaming,Apache Spark,Pyspark,Databricks,Spark Structured Streaming,我正在使用Spark readStream并设置选项maxBytesPerTrigger,如下所示:temp\u data=Spark.readStream.format(“delta”).option(“maxBytesPerTrigger”,1000).load(原始数据\u delta\u表) 但我的整个文件是一批装的。我想把它装入多个批次。我错过了什么?是的,如果我使用maxFilesPerTrigger,那么它工作得很好。但是maxBytesPerTrigger没有工作。 谢谢您使用的
temp\u data=Spark.readStream.format(“delta”).option(“maxBytesPerTrigger”,1000).load(原始数据\u delta\u表)
但我的整个文件是一批装的。我想把它装入多个批次。我错过了什么?是的,如果我使用maxFilesPerTrigger,那么它工作得很好。但是maxBytesPerTrigger没有工作。
谢谢您使用的是
.trigger(once=True)
吗?不,我没有指定任何trigger它是一个软最大值。软最大值意味着它将大约加载那么多数据。对吗?但在我的例子中,文件大小是10MB,我指定maxBytesPerTrigger为1000字节,即1KB…但它在一批中加载整个文件