Text 通过聚类分析确定文本相似度

Text 通过聚类分析确定文本相似度,text,cluster-analysis,similarity,Text,Cluster Analysis,Similarity,我是CS的一名高年级本科生,目前正在撰写论文。在本论文中,我编写了一个使用基于密度的聚类方法的程序。更具体地说,是光学算法。我知道如何使用它,但我不知道它是否有效 我想用这个算法进行文本分类。文本是集合中必须聚集的点,因此生成的层次结构由文本的类别和子类别组成。例如,其中一套是“科学文献”,由“数学”、“生物学”等子集组成 我的想法是,我可以分析特定文本中比整个数据集中更常见的特定单词的文本,也可以排除介词等无关紧要的单词。也许我可以使用开源的自然语言解析器,比如斯坦福解析器。之后,程序将每个文

我是CS的一名高年级本科生,目前正在撰写论文。在本论文中,我编写了一个使用基于密度的聚类方法的程序。更具体地说,是光学算法。我知道如何使用它,但我不知道它是否有效

我想用这个算法进行文本分类。文本是集合中必须聚集的点,因此生成的层次结构由文本的类别和子类别组成。例如,其中一套是“科学文献”,由“数学”、“生物学”等子集组成

我的想法是,我可以分析特定文本中比整个数据集中更常见的特定单词的文本,也可以排除介词等无关紧要的单词。也许我可以使用开源的自然语言解析器,比如斯坦福解析器。之后,程序将每个文本中的这些“特征词”组合成一个集合,并从该集合中提取一定数量的最常用词。该数量成为聚类的维度,特定文本中每个单词的频率用作点的坐标。因此,我们可以对它们进行聚类

问题是,这个想法是正确的还是完全是胡说八道?一般的聚类和基于密度的聚类是否可以用于此类分类?也许有一些文献可以为我指明正确的方向?

聚类!=分类。 运行聚类算法,并研究结果最有可能的是,不会有一个以“数学”为主题的集群“科学文献”-那你怎么办

此外,群集只会给您提供集合,这对于相似性搜索来说太粗糙了-相反,您需要先解决相似性问题,然后才能运行群集算法,如光学


您所描述的“想法”几乎是大家多年来一直在尝试的。

我知道集群只会给我提供集合,因此有必要手动标记这些集合。我想问的是,我上面建议的获取这些集合的方法是否有意义。对不起,你说的“解决相似性问题”是什么意思?我有一个光学算法可以处理点,现在我所要做的就是把文档变成点(就像我上面建议的那样),我错了吗?相似性很难。将文档转换为点不足以获得良好的相似性。试试看。TF-IDF在IR中是标准的。但是对于聚类,你需要一种量化相似性的方法,排名还不够好。仅仅在TF-IDF矢量上运行光学系统不会给你带来很好的效果。嗯,我想你是说这个?好的,我会读的。我已经找到了一些可能有用的东西,但是你能推荐一些特别的信息来源吗?这个项目是我自己的倡议,我们并没有真正在学士学位水平上学习数据挖掘,所以如果我的问题看起来很愚蠢,我很抱歉。也请阅读,但让我再次警告您,这对于查找10个最佳匹配项非常有效,但对于集群来说,它的效果似乎没有以前的一半好。我想你可以和ELKI一起试试。它具有光学以及余弦和TF-IDF。