Scala中的分层抽样

Scala中的分层抽样,scala,sampling,resampling,Scala,Sampling,Resampling,我试图在scala中创建以下分层抽样的等价物 Python代码,该代码按预期工作 stratifiedDF = labeledAllDF.sampleBy('column', fractions={0: 0.2, 1: 1.0}).drop("column") 我尝试了以下代码,但遇到了问题 val fractions= Map(0->0.2,1->1) val approxSample = indexedDS.rdd.sampleByKeyExact(with

我试图在scala中创建以下分层抽样的等价物

Python代码,该代码按预期工作

stratifiedDF = labeledAllDF.sampleBy('column', fractions={0: 0.2, 1: 1.0}).drop("column")
我尝试了以下代码,但遇到了问题

val fractions= Map(0->0.2,1->1)
val approxSample = indexedDS.rdd.sampleByKeyExact(withReplacement = true, fractions = fractions)
错误-

value sampleByKeyExact is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]

分层抽样API建议我可以在RDD上使用sample,但似乎对我不起作用。

该错误意味着
sampleByKeyExact
不是
RDD
类中的方法。然而,有一个看起来非常相似的错误,即
sampleByKeyExact
不是
RDD
类中的方法。然而,有一种看起来非常相似的方法