Python 异常检测的K-均值算法

Python 异常检测的K-均值算法,python,pandas,dataframe,machine-learning,jupyter-notebook,Python,Pandas,Dataframe,Machine Learning,Jupyter Notebook,我有一个数据集,它由13列和大约1000万行组成。我的项目的一部分是使用隔离林、椭圆包络和K-均值来检测和去除异常值。我试图使用K-mean,但每次我运行代码时,csv文件都没有发生任何变化,我是不是做错了什么 import numpy as np import pandas as pd from sklearn.cluster import KMeans df = pd.read_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\5-FIN

我有一个数据集,它由13列和大约1000万行组成。我的项目的一部分是使用隔离林、椭圆包络和K-均值来检测和去除异常值。我试图使用K-mean,但每次我运行代码时,csv文件都没有发生任何变化,我是不是做错了什么

import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

df = pd.read_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\5-FINAL2\\Final After Simple Filtering.csv')
KMEAN = KMeans( n_clusters=100)
df['anomaly'] = KMEAN.fit_predict(df)
df = df[df['anomaly'] != -1]
del df['anomaly']
df.to_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\K TEST.csv', index=False)

谢谢。

您能提供您的数据样本吗?过滤步骤后,
df
打印的内容是什么?由于缺乏详细信息,您似乎也已发布。请避免这种情况,并提供更多细节。KMeans不会神奇地检测异常。这是一种聚类算法,因此它通过为数据样本指定聚类标签来对数据进行聚类。一旦对数据进行了聚类,就可以分析结果以识别异常值。阅读SKLearn文档并查看其工作原理的一些示例,这样您就可以了解它并解决您的家庭作业。@petezurich it不打印任何内容,只将新的csv保存在我的文件夹中。我将尝试提供我的数据帧示例。另外,非常感谢您的帮助。@mac13k我现在将阅读SKLearn文档和示例,谢谢。顺便说一句,直到上个月,我才使用过python或任何编码语言,而且我在理解所有东西时有点困难。再次感谢你的帮助。