Scala 如何在ApacheSpark中处理偏斜和输出文件大小
当我试图连接两个数据集时,我面临着偏斜问题。其中一个数据分区(我正在尝试执行联接操作的列)比该分区的其余部分倾斜,因此,最终输出部分文件的倾斜度是其余输出部分文件的40倍。 我正在使用Scala 如何在ApacheSpark中处理偏斜和输出文件大小,scala,apache-spark,parquet,Scala,Apache Spark,Parquet,当我试图连接两个数据集时,我面临着偏斜问题。其中一个数据分区(我正在尝试执行联接操作的列)比该分区的其余部分倾斜,因此,最终输出部分文件的倾斜度是其余输出部分文件的40倍。 我正在使用Scala、apachespark执行我的计算,使用的文件格式是parquet 因此,我正在寻找两种解决方案: 第一个问题是,我如何处理在处理过程中所花费的时间的偏差 扭曲的数据需要很多时间。(对于扭曲的数据,我尝试过广播,但没有帮助) 秒是如何存储所有最终输出零件文件的 在256 MB的范围内。我试过一种财产
Scala、apachespark
执行我的计算,使用的文件格式是parquet
因此,我正在寻找两种解决方案:
- 第一个问题是,我如何处理在处理过程中所花费的时间的偏差 扭曲的数据需要很多时间。(对于扭曲的数据,我尝试过广播,但没有帮助)
- 秒是如何存储所有最终输出零件文件的 在256 MB的范围内。我试过一种财产 spark.sql.files.maxPartitionBytes=268435456,但它不做任何更改 差别
谢谢,在处理数据时,倾斜是一个常见的问题。 为了解决这个问题,有一种叫做盐腌的技术 首先,你可以去了解一下关于盐渍的直觉 第二,审视这个主题 我认为每个有偏斜的问题都有自己的解决方法。
希望这些资料能对你有所帮助 在处理数据时,倾斜是一个常见的问题。 为了解决这个问题,有一种叫做盐腌的技术 首先,你可以去了解一下关于盐渍的直觉 第二,审视这个主题 我认为每个有偏斜的问题都有自己的解决方法。 希望这些资料能对你有所帮助