如何在r中随机划分数据集

如何在r中随机划分数据集,r,statistics,training-data,R,Statistics,Training Data,我有一个大约连续50天的数据集。我想将其划分为训练和测试数据集,这样一周中的每5天都在训练集中,一周中的2天都在测试集中 应随机选择测试集的2天。不总是这样,例如选择前两天 我怎么能这么做 在R中是否有此功能?目前,这就是我如何将数据划分为训练集和测试集的方法,但它可能是这样做的,即测试和训练数据时间彼此非常接近,因此产生的MSR值总是非常高 设定种子100 train这是一个如何对这样的数据进行分区的示例 第42集 请发布一些示例数据。请看我添加了一些示例数据在本例中,var1到var5列实际

我有一个大约连续50天的数据集。我想将其划分为训练和测试数据集,这样一周中的每5天都在训练集中,一周中的2天都在测试集中

应随机选择测试集的2天。不总是这样,例如选择前两天

我怎么能这么做

在R中是否有此功能?目前,这就是我如何将数据划分为训练集和测试集的方法,但它可能是这样做的,即测试和训练数据时间彼此非常接近,因此产生的MSR值总是非常高

设定种子100
train这是一个如何对这样的数据进行分区的示例

第42集
请发布一些示例数据。请看我添加了一些示例数据在本例中,var1到var5列实际上并不重要,但问题是关于每周随机选择2天,可能需要跨越至少2周的日期来说明问题。如果存在不完整周的可能性,请指定在这种情况下希望发生什么,并在样本数据中包含不完整周。您是否每天至少进行一次观察?如果你最近一周只有3天的数据怎么办?请随意按你想要的方式分割数据,但要考虑到在这种情况下,你的训练数据集和你的坚持之间很可能存在显著的相关性。一般来说,一年分拆比一天分拆要好,这样可以避免对你的坚持结果过于乐观。@Gregor:谢谢你的回复。每5分钟进行一次观察。上周是不完整的一周,有6天。时间为2019年7月20日至2019年8月22日。感谢您的帮助。正如你们可以从我的样本数据中看到的,我的数据的形式和你们在答案中给出的不同。您的数据框有天,而我的数据保存为每个记录,连续几周,每5分钟观察一次。我该如何运用这种回答方法。