Text 通过聚类分析确定文本相似度_Text_Cluster Analysis_Similarity

Text 通过聚类分析确定文本相似度

text

Text 通过聚类分析确定文本相似度,text,cluster-analysis,similarity,Text,Cluster Analysis,Similarity,我是CS的一名高年级本科生，目前正在撰写论文。在本论文中，我编写了一个使用基于密度的聚类方法的程序。更具体地说，是光学算法。我知道如何使用它，但我不知道它是否有效我想用这个算法进行文本分类。文本是集合中必须聚集的点，因此生成的层次结构由文本的类别和子类别组成。例如，其中一套是“科学文献”，由“数学”、“生物学”等子集组成我的想法是，我可以分析特定文本中比整个数据集中更常见的特定单词的文本，也可以排除介词等无关紧要的单词。也许我可以使用开源的自然语言解析器，比如斯坦福解析器。之后，程序将每个文

我是CS的一名高年级本科生，目前正在撰写论文。在本论文中，我编写了一个使用基于密度的聚类方法的程序。更具体地说，是光学算法。我知道如何使用它，但我不知道它是否有效

我想用这个算法进行文本分类。文本是集合中必须聚集的点，因此生成的层次结构由文本的类别和子类别组成。例如，其中一套是“科学文献”，由“数学”、“生物学”等子集组成

我的想法是，我可以分析特定文本中比整个数据集中更常见的特定单词的文本，也可以排除介词等无关紧要的单词。也许我可以使用开源的自然语言解析器，比如斯坦福解析器。之后，程序将每个文本中的这些“特征词”组合成一个集合，并从该集合中提取一定数量的最常用词。该数量成为聚类的维度，特定文本中每个单词的频率用作点的坐标。因此，我们可以对它们进行聚类

问题是，这个想法是正确的还是完全是胡说八道？一般的聚类和基于密度的聚类是否可以用于此类分类？也许有一些文献可以为我指明正确的方向？

聚类！=分类。运行聚类算法，并研究结果最有可能的是，不会有一个以“数学”为主题的集群“科学文献”-那你怎么办

此外，群集只会给您提供集合，这对于相似性搜索来说太粗糙了-相反，您需要先解决相似性问题，然后才能运行群集算法，如光学

您所描述的“想法”几乎是大家多年来一直在尝试的。
我知道集群只会给我提供集合，因此有必要手动标记这些集合。我想问的是，我上面建议的获取这些集合的方法是否有意义。对不起，你说的“解决相似性问题”是什么意思？我有一个光学算法可以处理点，现在我所要做的就是把文档变成点（就像我上面建议的那样），我错了吗？相似性很难。将文档转换为点不足以获得良好的相似性。试试看。TF-IDF在IR中是标准的。但是对于聚类，你需要一种量化相似性的方法，排名还不够好。仅仅在TF-IDF矢量上运行光学系统不会给你带来很好的效果。嗯，我想你是说这个？好的，我会读的。我已经找到了一些可能有用的东西，但是你能推荐一些特别的信息来源吗？这个项目是我自己的倡议，我们并没有真正在学士学位水平上学习数据挖掘，所以如果我的问题看起来很愚蠢，我很抱歉。也请阅读，但让我再次警告您，这对于查找10个最佳匹配项非常有效，但对于集群来说，它的效果似乎没有以前的一半好。我想你可以和ELKI一起试试。它具有光学以及余弦和TF-IDF。