Apache spark spark的采样方法是什么?为什么不进行水库取样?

Apache spark spark的采样方法是什么?为什么不进行水库取样?,apache-spark,sampling,Apache Spark,Sampling,我知道油藏取样可以并行应用,但spark似乎使用了我不知道的其他取样方法。有人能简单地描述一下吗 根据@Tristan answer,我猜不使用水库采样的目的是为了保持等级平衡。但是我浏览了源代码,发现没有标签。我知道存在标签。您也可以查看此链接:

我知道油藏取样可以并行应用,但spark似乎使用了我不知道的其他取样方法。有人能简单地描述一下吗


根据@Tristan answer,我猜不使用水库采样的目的是为了保持等级平衡。但是我浏览了源代码,发现没有标签。

我知道存在标签。

您也可以查看此链接: