Apache spark PySpark randomSplit vs SkLearn训练测试分割-随机种子问题

Apache spark PySpark randomSplit vs SkLearn训练测试分割-随机种子问题,apache-spark,scikit-learn,pyspark,train-test-split,Apache Spark,Scikit Learn,Pyspark,Train Test Split,假设我有一个pandas数据帧,并将sklearn.model\u selection.train\u test\u split参数设置为1 假设我随后使用完全相同的pandasdataframe,并使用SQLContext实例创建一个Spark数据帧。如果我应用PySparkrandomSplit函数并将seed参数设置为1,是否总能保证获得相同的精确分割?通常,否 大多数“随机”数生成器实际上是一些函数,它们接受一些输入值并生成一个很长的字节流,这些字节流可以转换为其他类型的值。“随机性”来

假设我有一个
pandas
数据帧,并将
sklearn.model\u selection.train\u test\u split
参数设置为1

假设我随后使用完全相同的
pandas
dataframe,并使用
SQLContext
实例创建一个Spark数据帧。如果我应用PySpark
randomSplit
函数并将
seed
参数设置为1,是否总能保证获得相同的精确分割?

通常,否

大多数“随机”数生成器实际上是一些函数,它们接受一些输入值并生成一个很长的字节流,这些字节流可以转换为其他类型的值。“随机性”来源于这样一个事实,即仅给定此流中的值,即使是您想要的值,也很难预测下一个值或提取原始输入值

这个输入值就是我们所说的“种子”


结果是否相同不仅取决于种子,还取决于
sklearn
pyspark
是否使用完全相同的随机数生成器实现、它们运行的操作系统、处理器体系结构……

啊,这是有意义的。非常感谢你的回答。我不明白是谁投票否决了我,因为我觉得这是值得检查模型再现性的东西。