Scala中的分层抽样
我试图在scala中创建以下分层抽样的等价物 Python代码,该代码按预期工作Scala中的分层抽样,scala,sampling,resampling,Scala,Sampling,Resampling,我试图在scala中创建以下分层抽样的等价物 Python代码,该代码按预期工作 stratifiedDF = labeledAllDF.sampleBy('column', fractions={0: 0.2, 1: 1.0}).drop("column") 我尝试了以下代码,但遇到了问题 val fractions= Map(0->0.2,1->1) val approxSample = indexedDS.rdd.sampleByKeyExact(with
stratifiedDF = labeledAllDF.sampleBy('column', fractions={0: 0.2, 1: 1.0}).drop("column")
我尝试了以下代码,但遇到了问题
val fractions= Map(0->0.2,1->1)
val approxSample = indexedDS.rdd.sampleByKeyExact(withReplacement = true, fractions = fractions)
错误-
value sampleByKeyExact is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]
分层抽样API建议我可以在RDD上使用sample,但似乎对我不起作用。该错误意味着
sampleByKeyExact
不是RDD
类中的方法。然而,有一个看起来非常相似的错误,即sampleByKeyExact
不是RDD
类中的方法。然而,有一种看起来非常相似的方法