Algorithm 在对文本进行分类时自动将类别相互链接

Algorithm 在对文本进行分类时自动将类别相互链接,algorithm,text,categorization,n-gram,Algorithm,Text,Categorization,N Gram,我一直在做一个项目,对大量短文本进行数据挖掘,并根据预先存在的大量类别名称列表对其进行分类。要做到这一点,我必须首先找出如何从数据中创建一个好的文本语料库,以便有用于分类的参考文档,然后将分类的质量提高到可接受的水平。幸运的是,我已经完成了这一部分,对文本进行分类是很多人做了大量研究的事情 现在,我的下一个问题是,我试图找出一个好方法,通过计算将各种类别相互链接起来。也就是说,找出如何认识到汽车和雪佛兰在某种程度上是相关的。到目前为止,我已经尝试使用Cavnar和Trenkle等描述的N-Gra

我一直在做一个项目,对大量短文本进行数据挖掘,并根据预先存在的大量类别名称列表对其进行分类。要做到这一点,我必须首先找出如何从数据中创建一个好的文本语料库,以便有用于分类的参考文档,然后将分类的质量提高到可接受的水平。幸运的是,我已经完成了这一部分,对文本进行分类是很多人做了大量研究的事情

现在,我的下一个问题是,我试图找出一个好方法,通过计算将各种类别相互链接起来。也就是说,找出如何认识到汽车和雪佛兰在某种程度上是相关的。到目前为止,我已经尝试使用Cavnar和Trenkle等描述的N-Gram分类方法来比较我为每个类别创建的各种参考文档。不幸的是,似乎我能从这个方法中得到的最好的结果是,类别之间的正确关系大约为50-55%,而这些是最好的关系,总的来说,大约为30-35%,这是非常低的

我也尝试过其他几种方法,但我无法获得高于40%的相关链接。一个非相关关系的例子是类别卡车与类别化妆品或类别尿布密切相关,而与雪佛兰弱相关或根本不相关


现在,我试着寻找更好的方法来做这件事,但似乎我找不到任何方法,但我知道其他人做得比我好。有没有人有这方面的经验?关于创建类别之间关系的可用方法有什么提示吗?目前,我尝试的方法要么根本没有提供足够的关系,要么包含的垃圾关系比例太高。

显然,进行匹配的最佳方法在很大程度上取决于您的分类法、引用文档的性质以及您希望创建的预期关系

然而,根据提供的信息,我建议如下:

首先,根据参考文档,为每个类别构建一个基于单词而不是基于字母的unigram或bigram模型。如果每个类别只有很少的文档,那么您可能只有一个,您可以使用半监督方法,并为每个类别添加自动分类的文档。构建模型的相对简单的工具可能是。 计算模型中每个术语或短语相对于其他类别的信息增益。如果类别相似,则可能需要仅使用相邻类别来获得有意义的结果。这一步将使最佳分离条件得到更高的分数。 根据最热门的infogain术语或短语将类别相互关联。这可以通过使用类别模型之间的欧几里德距离或余弦距离来实现,也可以通过使用更精细的技术来实现,比如基于图的算法或层次聚类。
显然,进行匹配的最佳方法在很大程度上取决于您的分类法、引用文档的性质以及您希望创建的预期关系

然而,根据提供的信息,我建议如下:

首先,根据参考文档,为每个类别构建一个基于单词而不是基于字母的unigram或bigram模型。如果每个类别只有很少的文档,那么您可能只有一个,您可以使用半监督方法,并为每个类别添加自动分类的文档。构建模型的相对简单的工具可能是。 计算模型中每个术语或短语相对于其他类别的信息增益。如果类别相似,则可能需要仅使用相邻类别来获得有意义的结果。这一步将使最佳分离条件得到更高的分数。 根据最热门的infogain术语或短语将类别相互关联。这可以通过使用类别模型之间的欧几里德距离或余弦距离来实现,也可以通过使用更精细的技术来实现,比如基于图的算法或层次聚类。
你试过使用同义词表来生成可能的关系吗?也许我应该详细说明一下,每个类别都有一个关联的文档,在我对文档进行分类时使用过,我现在要做的是在类别之间建立类似的关系,只是使用我当时使用的相同方法几乎不起作用。你是否尝试过使用同义词表来生成可能的关系?也许我应该详细说明一下,每个类别都有一个关联的文档,我在对文档进行分类时使用了该文档,我现在尝试的是在类别之间建立类似的关系,只是用我当时用的方法是行不通的 几乎是一样的。