Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/url/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala 如何在ApacheSpark中处理偏斜和输出文件大小_Scala_Apache Spark_Parquet - Fatal编程技术网

Scala 如何在ApacheSpark中处理偏斜和输出文件大小

Scala 如何在ApacheSpark中处理偏斜和输出文件大小,scala,apache-spark,parquet,Scala,Apache Spark,Parquet,当我试图连接两个数据集时,我面临着偏斜问题。其中一个数据分区(我正在尝试执行联接操作的列)比该分区的其余部分倾斜,因此,最终输出部分文件的倾斜度是其余输出部分文件的40倍。 我正在使用Scala、apachespark执行我的计算,使用的文件格式是parquet 因此,我正在寻找两种解决方案: 第一个问题是,我如何处理在处理过程中所花费的时间的偏差 扭曲的数据需要很多时间。(对于扭曲的数据,我尝试过广播,但没有帮助) 秒是如何存储所有最终输出零件文件的 在256 MB的范围内。我试过一种财产

当我试图连接两个数据集时,我面临着偏斜问题。其中一个数据分区(我正在尝试执行联接操作的列)比该分区的其余部分倾斜,因此,最终输出部分文件的倾斜度是其余输出部分文件的40倍。 我正在使用
Scala、apachespark
执行我的计算,使用的文件格式是
parquet

因此,我正在寻找两种解决方案:

  • 第一个问题是,我如何处理在处理过程中所花费的时间的偏差 扭曲的数据需要很多时间。(对于扭曲的数据,我尝试过广播,但没有帮助)
  • 秒是如何存储所有最终输出零件文件的 在256 MB的范围内。我试过一种财产 spark.sql.files.maxPartitionBytes=268435456,但它不做任何更改 差别

谢谢,

在处理数据时,倾斜是一个常见的问题。 为了解决这个问题,有一种叫做盐腌的技术

首先,你可以去了解一下关于盐渍的直觉

第二,审视这个主题

我认为每个有偏斜的问题都有自己的解决方法。
希望这些资料能对你有所帮助

在处理数据时,倾斜是一个常见的问题。 为了解决这个问题,有一种叫做盐腌的技术

首先,你可以去了解一下关于盐渍的直觉

第二,审视这个主题

我认为每个有偏斜的问题都有自己的解决方法。 希望这些资料能对你有所帮助