Python 如何在pyspark上创建分层分割训练、验证和测试集?
我有一个小数据集(140K),我想将其拆分为验证集、使用目标变量的验证集测试集和另一个字段来对这些拆分进行标准化。在Pyspark中,可以使用randomSplit()函数将数据集拆分为训练数据集和测试数据集。它最多可以包含两个参数,即权重和种子。我们使用种子是因为我们需要相同的输出。在权重中,您可以指定浮点数。如果它的和不等于1,则将对权重进行规范化。它用于指定数据在训练、验证和测试部分中所占的百分比 示例代码Python 如何在pyspark上创建分层分割训练、验证和测试集?,python,validation,machine-learning,pyspark,Python,Validation,Machine Learning,Pyspark,我有一个小数据集(140K),我想将其拆分为验证集、使用目标变量的验证集测试集和另一个字段来对这些拆分进行标准化。在Pyspark中,可以使用randomSplit()函数将数据集拆分为训练数据集和测试数据集。它最多可以包含两个参数,即权重和种子。我们使用种子是因为我们需要相同的输出。在权重中,您可以指定浮点数。如果它的和不等于1,则将对权重进行规范化。它用于指定数据在训练、验证和测试部分中所占的百分比 示例代码 data.randomSplit([0.8,0.1,0.1],785) @pis
data.randomSplit([0.8,0.1,0.1],785)
@pissall分层样本和分层拆分的可能重复项不完全相同。但是,这是一个良好的开端。thxIt是一个如何使用
groupby
方法进行比例分配的示例。拿起逻辑,帮助你的用例就是一切。看看这个谢谢你的回复。它看起来不错,不幸的是randomspilt
创建了随机序列、验证和测试部分。我希望我能有一个特征分层的样本分割。因此,分割在每个类中的百分比是相同的。类似于@pissall定义的[Pisspark分层抽样](),但适用于split