Python 数据集中的唯一标识符,索引问题

Python 数据集中的唯一标识符,索引问题,python,tensorflow,machine-learning,scikit-learn,Python,Tensorflow,Machine Learning,Scikit Learn,我的问题是关于使用Scikit Learn&TensorFlow book进行机器学习的实践, 有一段文字说: 如果使用行索引作为唯一标识符,则需要确保新数据 将附加到数据集的末尾,并且不会删除任何行 我不明白为什么删除一行会导致问题, 如果我删除一行数据,然后使用hashlib拆分数据,得到训练集和测试集,测试集是相同的,没有明显删除行,测试集没有改变,索引没有改变, 那么,删除行和添加行(而不是在数据末尾)的问题是什么呢?我认为这是一个一般性的提示/良好做法。 1.如果按索引进行拆分(如前8

我的问题是关于使用Scikit Learn&TensorFlow book进行机器学习的实践, 有一段文字说:

如果使用行索引作为唯一标识符,则需要确保新数据 将附加到数据集的末尾,并且不会删除任何行

我不明白为什么删除一行会导致问题, 如果我删除一行数据,然后使用hashlib拆分数据,得到训练集和测试集,测试集是相同的,没有明显删除行,测试集没有改变,索引没有改变,
那么,删除行和添加行(而不是在数据末尾)的问题是什么呢?

我认为这是一个一般性的提示/良好做法。 1.如果按索引进行拆分(如前80%的索引和后20%)或者正在进行时间序列项目,那么将行放在何处具有很大的重要性。 2.如果您认为您正在追加行,但正在覆盖行,那么您可能会在不知不觉中丢失数据