分组类似的错误消息-NLP/机器学习python

分组类似的错误消息-NLP/机器学习python,python,nlp,classification,Python,Nlp,Classification,我在一个excel文件中有近500条错误消息,我正在尝试将类似的错误消息分组。以下是一些示例错误消息 无效的帐户名 无效帐号 关闭日期早于打开日期 结束日期早于活动日期 帐户名必须是唯一的 帐号必须是唯一的 我的要求是将类似的错误消息分组 到目前为止,我尝试的一种方法是在对文本进行预处理后使用Doc2Vec生成向量。但我不知道如何继续向量以及如何使用向量输出进行分组 有人能提出进一步的建议吗?如果还有其他更好的方法。请建议。我不确定我是否理解您的问题,您有数据向量,但没有标签,对吗?如果你没有标

我在一个excel文件中有近500条错误消息,我正在尝试将类似的错误消息分组。以下是一些示例错误消息

  • 无效的帐户名
  • 无效帐号
  • 关闭日期早于打开日期
  • 结束日期早于活动日期
  • 帐户名必须是唯一的
  • 帐号必须是唯一的
  • 我的要求是将类似的错误消息分组

    到目前为止,我尝试的一种方法是在对文本进行预处理后使用Doc2Vec生成向量。但我不知道如何继续向量以及如何使用向量输出进行分组


    有人能提出进一步的建议吗?如果还有其他更好的方法。请建议。

    我不确定我是否理解您的问题,您有数据向量,但没有标签,对吗?如果你没有标签,我不相信分类是否有任何意义。您应该使用集群。如果您可以估计您的组号(集群号),您可以尝试使用Kmeans来查看它的运行情况。如果您不知道集群的数量,请使用自底向上的集群或DBSCANYes。。我没有标签。。我没能。。但是我不知道如何理解输出。。DBSCAN是否有类似的教程或示例代码?通常情况下,您应该查看数据和集群,看看它是否解决了您的问题,并且实际执行了您的任务。这取决于您是否明确定义了任务,以及您是否知道最终需要什么。如果你这样做了,看看结果,会有所帮助。对于DBSCAN,它们是web上的大量示例。这是我通过谷歌随机找到的一个问题:我不确定我是否理解你的问题,你有数据的向量,但你没有标签,对吗?如果你没有标签,我不相信分类是否有任何意义。您应该使用集群。如果您可以估计您的组号(集群号),您可以尝试使用Kmeans来查看它的运行情况。如果您不知道集群的数量,请使用自底向上的集群或DBSCANYes。。我没有标签。。我没能。。但是我不知道如何理解输出。。DBSCAN是否有类似的教程或示例代码?通常情况下,您应该查看数据和集群,看看它是否解决了您的问题,并且实际执行了您的任务。这取决于您是否明确定义了任务,以及您是否知道最终需要什么。如果你这样做了,看看结果,会有所帮助。对于DBSCAN,它们是web上的大量示例。下面是我通过谷歌找到的其中一个: