Python 数据集中的唯一标识符，索引问题_Python_Tensorflow_Machine Learning_Scikit Learn

Python 数据集中的唯一标识符，索引问题

python tensorflow machine-learning scikit-learn

Python 数据集中的唯一标识符，索引问题,python,tensorflow,machine-learning,scikit-learn,Python,Tensorflow,Machine Learning,Scikit Learn,我的问题是关于使用Scikit Learn&TensorFlow book进行机器学习的实践，有一段文字说：如果使用行索引作为唯一标识符，则需要确保新数据将附加到数据集的末尾，并且不会删除任何行我不明白为什么删除一行会导致问题，如果我删除一行数据，然后使用hashlib拆分数据，得到训练集和测试集，测试集是相同的，没有明显删除行，测试集没有改变，索引没有改变，那么，删除行和添加行（而不是在数据末尾）的问题是什么呢？我认为这是一个一般性的提示/良好做法。 1.如果按索引进行拆分（如前8

我的问题是关于使用Scikit Learn&TensorFlow book进行机器学习的实践，有一段文字说：

如果使用行索引作为唯一标识符，则需要确保新数据将附加到数据集的末尾，并且不会删除任何行

我不明白为什么删除一行会导致问题，如果我删除一行数据，然后使用hashlib拆分数据，得到训练集和测试集，测试集是相同的，没有明显删除行，测试集没有改变，索引没有改变，

那么，删除行和添加行（而不是在数据末尾）的问题是什么呢？

我认为这是一个一般性的提示/良好做法。 1.如果按索引进行拆分（如前80%的索引和后20%）或者正在进行时间序列项目，那么将行放在何处具有很大的重要性。 2.如果您认为您正在追加行，但正在覆盖行，那么您可能会在不知不觉中丢失数据