Ontology 文档多标签分类-从何处获取标签？本体论？_Ontology_N Gram_Document Classification_Vowpalwabbit

Ontology 文档多标签分类-从何处获取标签？本体论？

Ontology 文档多标签分类-从何处获取标签？本体论？,ontology,n-gram,document-classification,vowpalwabbit,Ontology,N Gram,Document Classification,Vowpalwabbit,我熟悉数据挖掘技术，但不太熟悉文本挖掘或Web挖掘这里有一个简单的任务：将文章分类为一组类别。假设我提取了文章的文本内容并对其进行了处理如何以及从何处获得类别-预定义标签？是否有可能插入一个本体，并根据需要进行细化？分类任务将是多标签分类在这种情况下，我们是否使用n-gram进行近似匹配目前，我从文本中提取了主题和命名实体。我可以用Vowpal Wabbit吗如何以及从何处获得类别-预定义标签有许多具有分类法和本体信息的基准文本数据集。是文本分析研究中使用的一种流行的基准数据集。

我熟悉数据挖掘技术，但不太熟悉文本挖掘或Web挖掘

这里有一个简单的任务：将文章分类为一组类别。假设我提取了文章的文本内容并对其进行了处理

如何以及从何处获得类别-预定义标签？是否有可能插入一个本体，并根据需要进行细化？分类任务将是多标签分类

在这种情况下，我们是否使用n-gram进行近似匹配

目前，我从文本中提取了主题和命名实体。我可以用Vowpal Wabbit吗

如何以及从何处获得类别-预定义标签

有许多具有分类法和本体信息的基准文本数据集。是文本分析研究中使用的一种流行的基准数据集。这是第一篇专注于使用分类法在Wordnet上实现文本分析语义相似性的论文。这是一篇关于类似目标的较新的好论文

是否有可能插入一个本体，并根据需要进行细化

对。有一个研究子领域处理基于概念（在本例中为文本文档中的概念）之间存在的分类法和本体的语义相似性。本文概述并比较了将本体论和分类引入文档间相似性度量的技术//根据需要进行粒度调整//-是的，您可以通过获得控制粒度的新相似性度量来进行调整。许多研究工作与此相关。这是最近的一个例子

在这种情况下，我们是否使用n-gram进行近似匹配

是的，这是可能的，但是前面提到的论文使用了较少粒度的方法来对文档中的概念进行建模。他们大多数使用tf idf，而不是n-grams术语。

谢谢你的回答，从NLP开始非常有用。@Annamalai n你能检查你提到的论文的链接并可能更新它们吗？