Python 数据集的二值化会导致重复。有什么解决方案吗？_Python_Machine Learning_Svm_Genetic Algorithm_Preprocessor

Python 数据集的二值化会导致重复。有什么解决方案吗？

python machine-learning

Python 数据集的二值化会导致重复。有什么解决方案吗？,python,machine-learning,svm,genetic-algorithm,preprocessor,Python,Machine Learning,Svm,Genetic Algorithm,Preprocessor,我已将数据集转换为二进制文件。所有为0的数值都是0，0以上的所有值都转换为1。现在，这会导致我的数据重复。我正在使用NSLKDD数据集。有25000多个实例，现在在将它们转换为二进制并删除重复项之后，只剩下1729个不重复的实例。我应该如何在不重复的情况下对它们进行二值化？哦，我将其输入到遗传算法中，这也会导致子代的重复。我不确定是否知道数据集，但如果您有一个包含多个列的数据帧df： df columnA columnB columnC .... .... 这将为您提供有关删除重复项的概述：

我已将数据集转换为二进制文件。所有为0的数值都是0，0以上的所有值都转换为1。现在，这会导致我的数据重复。我正在使用NSLKDD数据集。有25000多个实例，现在在将它们转换为二进制并删除重复项之后，只剩下1729个不重复的实例。我应该如何在不重复的情况下对它们进行二值化？

哦，我将其输入到遗传算法中，这也会导致子代的重复。

我不确定是否知道数据集，但如果您有一个包含多个列的数据帧

df

：

df
columnA columnB columnC ....
....

这将为您提供有关删除重复项的概述：

#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)