Algorithm 是否有一种算法可以提取英语文本中有意义的标记_Algorithm_Tags_Semantics

Algorithm 是否有一种算法可以提取英语文本中有意义的标记

algorithm tags

Algorithm 是否有一种算法可以提取英语文本中有意义的标记,algorithm,tags,semantics,Algorithm,Tags,Semantics,我想从任何大小的英文文本中提取一个减少的“有意义”标签集合（最多10个）非常有趣，但算法似乎非常基本（仅计算单词）有没有其他算法可以做到这一点？当你减去人类元素（标记）时，剩下的就是频率。“忽略普通英语单词”是第二个最好的过滤器，因为它处理的是排除而不是包含。我测试了几个站点，结果非常准确。真的没有其他方法来获得“意义”，这就是为什么语义网在这些日子里得到如此多的关注。这是一种用HTML暗示意义的方法。。。当然，这也有人的因素。也许“术语频率-逆文档频率”会有用…在文本分类中，这个问题称为降

我想从任何大小的英文文本中提取一个减少的“有意义”标签集合（最多10个）

非常有趣，但算法似乎非常基本（仅计算单词）

有没有其他算法可以做到这一点？

当你减去人类元素（标记）时，剩下的就是频率。“忽略普通英语单词”是第二个最好的过滤器，因为它处理的是排除而不是包含。我测试了几个站点，结果非常准确。真的没有其他方法来获得“意义”，这就是为什么语义网在这些日子里得到如此多的关注。这是一种用HTML暗示意义的方法。。。当然，这也有人的因素。

也许“术语频率-逆文档频率”会有用…

在文本分类中，这个问题称为降维。在这方面的文献中有许多有用的算法。

基本上，这是一个文本分类问题/文档分类问题。如果您可以访问许多已标记的文档，则可以分析哪些（内容）单词触发哪些标记，然后使用此信息标记新文档

如果您不想使用机器学习方法，并且您仍然有一个文档集合，那么您可以使用诸如筛选有趣单词之类的度量

更进一步，如果同义词的频率较高，则可以使用查找同义词并用同义词替换单词

包含更多关于文本分类的介绍。

已有用于此的web服务。两个三个例子：

促进剂

您想对文本进行编辑

词频分析是进行语义分析最简单的方法之一。不幸的是（显然）这是最不准确的。它可以通过使用专门的词典（如用于词汇的大纲或形式）、带有常用词的“禁止使用列表”和其他文本（找到那些“常用”词并排除它们）来改进

至于其他算法，它们可以基于：

语法分析（比如在句子中寻找主语和/或动词）

格式分析（分析标题、粗体文本、斜体…如适用）

引用分析（例如，如果文本在互联网上，那么引用可以用几个词来描述它…被一些搜索引擎使用）

但是。。。您应该了解，这些算法是用于语义分析的mereley启发式算法，而不是实现该目标的严格算法。
语义分析问题是自第一台计算机出现以来人工智能/机器学习研究中的主要问题之一。
可以分两步使用：
1-尝试主题建模算法：

潜在Dirichlet分配

潜词嵌入

2-之后，您可以选择每个主题中最具代表性的单词作为标记