Apache spark Spark-高任务反序列化时间_Apache Spark_Apache Spark Sql_Spark Dataframe

Apache spark Spark-高任务反序列化时间

apache-spark

Apache spark Spark-高任务反序列化时间,apache-spark,apache-spark-sql,spark-dataframe,Apache Spark,Apache Spark Sql,Spark Dataframe,我正在运行一个使用Spark Sql的作业，其中包含一些复杂的查询（按7个字段分组、按5个字段分区和排名等）。当我在一个大数据集（拼花地板中为1TB）上运行作业时，其中一个阶段的任务反序列化时间非常长。但是日志只是说它从拼花文件（来自S3）读取数据。谁能帮我理解为什么会发生这种事。我可以说罐子大小不是问题，因为我在其他阶段看不到这一点如果我必须使用Kyro序列化，我将如何在Dataset中使用它？（我没有使用任何自定义对象）

我正在运行一个使用Spark Sql的作业，其中包含一些复杂的查询（按7个字段分组、按5个字段分区和排名等）。当我在一个大数据集（拼花地板中为1TB）上运行作业时，其中一个阶段的任务反序列化时间非常长。但是日志只是说它从拼花文件（来自S3）读取数据。谁能帮我理解为什么会发生这种事。我可以说罐子大小不是问题，因为我在其他阶段看不到这一点

如果我必须使用Kyro序列化，我将如何在Dataset中使用它？（我没有使用任何自定义对象）