Python 数据集的二值化会导致重复。有什么解决方案吗?

Python 数据集的二值化会导致重复。有什么解决方案吗?,python,machine-learning,svm,genetic-algorithm,preprocessor,Python,Machine Learning,Svm,Genetic Algorithm,Preprocessor,我已将数据集转换为二进制文件。所有为0的数值都是0,0以上的所有值都转换为1。现在,这会导致我的数据重复。我正在使用NSLKDD数据集。有25000多个实例,现在在将它们转换为二进制并删除重复项之后,只剩下1729个不重复的实例。我应该如何在不重复的情况下对它们进行二值化? 哦,我将其输入到遗传算法中,这也会导致子代的重复。我不确定是否知道数据集,但如果您有一个包含多个列的数据帧df: df columnA columnB columnC .... .... 这将为您提供有关删除重复项的概述:

我已将数据集转换为二进制文件。所有为0的数值都是0,0以上的所有值都转换为1。现在,这会导致我的数据重复。我正在使用NSLKDD数据集。有25000多个实例,现在在将它们转换为二进制并删除重复项之后,只剩下1729个不重复的实例。我应该如何在不重复的情况下对它们进行二值化?
哦,我将其输入到遗传算法中,这也会导致子代的重复。

我不确定是否知道数据集,但如果您有一个包含多个列的数据帧
df

df
columnA columnB columnC ....
....
这将为您提供有关删除重复项的概述:

#drop duplicates (complete row is the same):
df.drop_duplicates(keep=First, inplace=True)
#drop duplicates only when column value is the same:
df.drop_duplicates(subset=['columnA'], keep=First, inplace=True)