Data science 测试和培训良好实践wrt总结特征

Data science 测试和培训良好实践wrt总结特征,data-science,cross-validation,Data Science,Cross Validation,当数据集的一个特征是整个数据池的汇总统计时,将列车数据包括在测试数据中以计算特征进行验证是否是一种良好的做法 例如,假设我有1000个数据点,分为800个训练条目和200个验证条目。我创建了一个包含800个条目的特性,用于训练等级四分位数(或者可以是任何东西),其中数字为0-3,其他特性属于四分位数。因此,在训练集中,每个四分位数将有200个数据点 一旦您训练模型并需要再次计算验证集的特征,a)您是否使用已设置的四分位数屏障,即200个验证条目可能具有不同于50-50-50-50四分位数的分割,

当数据集的一个特征是整个数据池的汇总统计时,将列车数据包括在测试数据中以计算特征进行验证是否是一种良好的做法

例如,假设我有1000个数据点,分为800个训练条目和200个验证条目。我创建了一个包含800个条目的特性,用于训练等级四分位数(或者可以是任何东西),其中数字为0-3,其他特性属于四分位数。因此,在训练集中,每个四分位数将有200个数据点

一旦您训练模型并需要再次计算验证集的特征,a)您是否使用已设置的四分位数屏障,即200个验证条目可能具有不同于50-50-50-50四分位数的分割,或b)您是否使用所有1000个条目重新计算四分位数,以获得四分位数等级的新特征,每个250个条目中的每一个


非常感谢

理想的做法是计算培训数据集上的四分位数,并在坚持/验证数据集上使用这些障碍。为确保正确生成模型诊断以评估其预测性能,您不希望测试数据集的分布影响模型训练。这是因为当您对看不见的数据应用模型时,这些数据在现实生活中是不可用的

我还认为,在考虑列车测试拆分时,您会发现本文非常有用-