Apache spark PySpark randomSplit vs SkLearn训练测试分割-随机种子问题_Apache Spark_Scikit Learn_Pyspark_Train Test Split

Apache spark PySpark randomSplit vs SkLearn训练测试分割-随机种子问题

apache-spark scikit-learn pyspark

Apache spark PySpark randomSplit vs SkLearn训练测试分割-随机种子问题,apache-spark,scikit-learn,pyspark,train-test-split,Apache Spark,Scikit Learn,Pyspark,Train Test Split,假设我有一个pandas数据帧，并将sklearn.model\u selection.train\u test\u split参数设置为1 假设我随后使用完全相同的pandasdataframe，并使用SQLContext实例创建一个Spark数据帧。如果我应用PySparkrandomSplit函数并将seed参数设置为1，是否总能保证获得相同的精确分割？通常，否大多数“随机”数生成器实际上是一些函数，它们接受一些输入值并生成一个很长的字节流，这些字节流可以转换为其他类型的值。“随机性”来

假设我有一个

pandas

数据帧，并将

sklearn.model\u selection.train\u test\u split

参数设置为1

假设我随后使用完全相同的

pandas

dataframe，并使用

SQLContext

实例创建一个Spark数据帧。如果我应用PySpark

randomSplit

函数并将

seed

参数设置为1，是否总能保证获得相同的精确分割？

通常，否

大多数“随机”数生成器实际上是一些函数，它们接受一些输入值并生成一个很长的字节流，这些字节流可以转换为其他类型的值。“随机性”来源于这样一个事实，即仅给定此流中的值，即使是您想要的值，也很难预测下一个值或提取原始输入值

这个输入值就是我们所说的“种子”

结果是否相同不仅取决于种子，还取决于

sklearn

和

pyspark

是否使用完全相同的随机数生成器实现、它们运行的操作系统、处理器体系结构……

啊，这是有意义的。非常感谢你的回答。我不明白是谁投票否决了我，因为我觉得这是值得检查模型再现性的东西。