Python 为什么spark中的采样和减法会得出这样的结果_Python_Apache Spark_Pyspark_Spark Dataframe_Apache Spark Mllib

Python 为什么spark中的采样和减法会得出这样的结果

python apache-spark pyspark

Python 为什么spark中的采样和减法会得出这样的结果,python,apache-spark,pyspark,spark-dataframe,apache-spark-mllib,Python,Apache Spark,Pyspark,Spark Dataframe,Apache Spark Mllib,读取拼花地板文件 df=sqlContext.read.parquet("/user/data.parquet") 计数测试集 6594476 test.count() 显然，659w+11w不等于824w，javaRDD也有这个问题。我的800w似乎有重复的值。。。它需要在采样之前进行“区分”顺便说一句，您可能希望使用randomspilt。 8246174 train=df.sample(False,0.8) test=df.subtract(train)<br/> tra

读取拼花地板文件

df=sqlContext.read.parquet("/user/data.parquet")

计数测试集

6594476
test.count()

显然，659w+11w不等于824w，javaRDD也有这个问题。

我的800w似乎有重复的值。。。它需要在采样之前进行“区分”

顺便说一句，您可能希望使用

randomspilt

。

8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>

train.count()

6594476
test.count()