Apache spark 在Pyspark中使用maxBytesPerTrigger的正确方法是什么？_Apache Spark_Pyspark_Databricks_Spark Structured Streaming

Apache spark 在Pyspark中使用maxBytesPerTrigger的正确方法是什么？

apache-spark pyspark

Apache spark 在Pyspark中使用maxBytesPerTrigger的正确方法是什么？,apache-spark,pyspark,databricks,spark-structured-streaming,Apache Spark,Pyspark,Databricks,Spark Structured Streaming,我正在使用Spark readStream并设置选项maxBytesPerTrigger，如下所示：temp\u data=Spark.readStream.format（“delta”）.option（“maxBytesPerTrigger”，1000）.load（原始数据\u delta\u表）但我的整个文件是一批装的。我想把它装入多个批次。我错过了什么？是的，如果我使用maxFilesPerTrigger，那么它工作得很好。但是maxBytesPerTrigger没有工作。谢谢您使用的

我正在使用Spark readStream并设置选项maxBytesPerTrigger，如下所示：

temp\u data=Spark.readStream.format（“delta”）.option（“maxBytesPerTrigger”，1000）.load（原始数据\u delta\u表）

但我的整个文件是一批装的。我想把它装入多个批次。我错过了什么？是的，如果我使用maxFilesPerTrigger，那么它工作得很好。但是maxBytesPerTrigger没有工作。

谢谢

您使用的是

.trigger（once=True）

吗？不，我没有指定任何trigger它是一个软最大值。软最大值意味着它将大约加载那么多数据。对吗？但在我的例子中，文件大小是10MB，我指定maxBytesPerTrigger为1000字节，即1KB…但它在一批中加载整个文件