Scala 如何在ApacheSpark中处理偏斜和输出文件大小_Scala_Apache Spark_Parquet

Scala 如何在ApacheSpark中处理偏斜和输出文件大小

scala apache-spark

Scala 如何在ApacheSpark中处理偏斜和输出文件大小,scala,apache-spark,parquet,Scala,Apache Spark,Parquet,当我试图连接两个数据集时，我面临着偏斜问题。其中一个数据分区（我正在尝试执行联接操作的列）比该分区的其余部分倾斜，因此，最终输出部分文件的倾斜度是其余输出部分文件的40倍。我正在使用Scala、apachespark执行我的计算，使用的文件格式是parquet 因此，我正在寻找两种解决方案：第一个问题是，我如何处理在处理过程中所花费的时间的偏差扭曲的数据需要很多时间。（对于扭曲的数据，我尝试过广播，但没有帮助）秒是如何存储所有最终输出零件文件的在256 MB的范围内。我试过一种财产

当我试图连接两个数据集时，我面临着偏斜问题。其中一个数据分区（我正在尝试执行联接操作的列）比该分区的其余部分倾斜，因此，最终输出部分文件的倾斜度是其余输出部分文件的40倍。我正在使用

Scala、apachespark

执行我的计算，使用的文件格式是

parquet

因此，我正在寻找两种解决方案：

第一个问题是，我如何处理在处理过程中所花费的时间的偏差扭曲的数据需要很多时间。（对于扭曲的数据，我尝试过广播，但没有帮助）
秒是如何存储所有最终输出零件文件的在256 MB的范围内。我试过一种财产 spark.sql.files.maxPartitionBytes=268435456，但它不做任何更改差别

谢谢，

在处理数据时，倾斜是一个常见的问题。为了解决这个问题，有一种叫做盐腌的技术

首先，你可以去了解一下关于盐渍的直觉

第二，审视这个主题

我认为每个有偏斜的问题都有自己的解决方法。

希望这些资料能对你有所帮助

在处理数据时，倾斜是一个常见的问题。为了解决这个问题，有一种叫做盐腌的技术

首先，你可以去了解一下关于盐渍的直觉

第二，审视这个主题

我认为每个有偏斜的问题都有自己的解决方法。希望这些资料能对你有所帮助