Python 为什么spark中的采样和减法会得出这样的结果

Python 为什么spark中的采样和减法会得出这样的结果,python,apache-spark,pyspark,spark-dataframe,apache-spark-mllib,Python,Apache Spark,Pyspark,Spark Dataframe,Apache Spark Mllib,读取拼花地板文件 df=sqlContext.read.parquet("/user/data.parquet") 计数测试集 6594476 test.count() 显然,659w+11w不等于824w,javaRDD也有这个问题。我的800w似乎有重复的值。。。它需要在采样之前进行“区分”顺便说一句,您可能希望使用randomspilt。 8246174 train=df.sample(False,0.8) test=df.subtract(train)<br/> tra

读取拼花地板文件

df=sqlContext.read.parquet("/user/data.parquet")
计数测试集

6594476
test.count()

显然,659w+11w不等于824w,javaRDD也有这个问题。

我的800w似乎有重复的值。。。它需要在采样之前进行“区分”

顺便说一句,您可能希望使用
randomspilt
8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>

train.count()
6594476
test.count()
117790