Python 异常检测的K-均值算法_Python_Pandas_Dataframe_Machine Learning_Jupyter Notebook

Python 异常检测的K-均值算法

python pandas dataframe machine-learning jupyter-notebook

Python 异常检测的K-均值算法,python,pandas,dataframe,machine-learning,jupyter-notebook,Python,Pandas,Dataframe,Machine Learning,Jupyter Notebook,我有一个数据集，它由13列和大约1000万行组成。我的项目的一部分是使用隔离林、椭圆包络和K-均值来检测和去除异常值。我试图使用K-mean，但每次我运行代码时，csv文件都没有发生任何变化，我是不是做错了什么 import numpy as np import pandas as pd from sklearn.cluster import KMeans df = pd.read_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\5-FIN

我有一个数据集，它由13列和大约1000万行组成。我的项目的一部分是使用隔离林、椭圆包络和K-均值来检测和去除异常值。我试图使用K-mean，但每次我运行代码时，csv文件都没有发生任何变化，我是不是做错了什么

import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

df = pd.read_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\5-FINAL2\\Final After Simple Filtering.csv')
KMEAN = KMeans( n_clusters=100)
df['anomaly'] = KMEAN.fit_predict(df)
df = df[df['anomaly'] != -1]
del df['anomaly']
df.to_csv('C:\\Users\\ali97\\Desktop\\Project\\Database\\K TEST.csv', index=False)

谢谢。

您能提供您的数据样本吗？过滤步骤后，

df

打印的内容是什么？由于缺乏详细信息，您似乎也已发布。请避免这种情况，并提供更多细节。KMeans不会神奇地检测异常。这是一种聚类算法，因此它通过为数据样本指定聚类标签来对数据进行聚类。一旦对数据进行了聚类，就可以分析结果以识别异常值。阅读SKLearn文档并查看其工作原理的一些示例，这样您就可以了解它并解决您的家庭作业。@petezurich it不打印任何内容，只将新的csv保存在我的文件夹中。我将尝试提供我的数据帧示例。另外，非常感谢您的帮助。@mac13k我现在将阅读SKLearn文档和示例，谢谢。顺便说一句，直到上个月，我才使用过python或任何编码语言，而且我在理解所有东西时有点困难。再次感谢你的帮助。