Apache spark Spark-高任务反序列化时间

Apache spark Spark-高任务反序列化时间,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,我正在运行一个使用Spark Sql的作业,其中包含一些复杂的查询(按7个字段分组、按5个字段分区和排名等)。当我在一个大数据集(拼花地板中为1TB)上运行作业时,其中一个阶段的任务反序列化时间非常长。但是日志只是说它从拼花文件(来自S3)读取数据。谁能帮我理解为什么会发生这种事。我可以说罐子大小不是问题,因为我在其他阶段看不到这一点 如果我必须使用Kyro序列化,我将如何在Dataset中使用它?(我没有使用任何自定义对象)

我正在运行一个使用Spark Sql的作业,其中包含一些复杂的查询(按7个字段分组、按5个字段分区和排名等)。当我在一个大数据集(拼花地板中为1TB)上运行作业时,其中一个阶段的任务反序列化时间非常长。但是日志只是说它从拼花文件(来自S3)读取数据。谁能帮我理解为什么会发生这种事。我可以说罐子大小不是问题,因为我在其他阶段看不到这一点

如果我必须使用Kyro序列化,我将如何在Dataset中使用它?(我没有使用任何自定义对象)