Algorithm 是否有一种算法可以提取英语文本中有意义的标记
我想从任何大小的英文文本中提取一个减少的“有意义”标签集合(最多10个) 非常有趣,但算法似乎非常基本(仅计算单词)Algorithm 是否有一种算法可以提取英语文本中有意义的标记,algorithm,tags,semantics,Algorithm,Tags,Semantics,我想从任何大小的英文文本中提取一个减少的“有意义”标签集合(最多10个) 非常有趣,但算法似乎非常基本(仅计算单词) 有没有其他算法可以做到这一点?当你减去人类元素(标记)时,剩下的就是频率。“忽略普通英语单词”是第二个最好的过滤器,因为它处理的是排除而不是包含。我测试了几个站点,结果非常准确。真的没有其他方法来获得“意义”,这就是为什么语义网在这些日子里得到如此多的关注。这是一种用HTML暗示意义的方法。。。当然,这也有人的因素。也许“术语频率-逆文档频率”会有用…在文本分类中,这个问题称为降
有没有其他算法可以做到这一点?当你减去人类元素(标记)时,剩下的就是频率。“忽略普通英语单词”是第二个最好的过滤器,因为它处理的是排除而不是包含。我测试了几个站点,结果非常准确。真的没有其他方法来获得“意义”,这就是为什么语义网在这些日子里得到如此多的关注。这是一种用HTML暗示意义的方法。。。当然,这也有人的因素。也许“术语频率-逆文档频率”会有用…在文本分类中,这个问题称为降维。在这方面的文献中有许多有用的算法。基本上,这是一个文本分类问题/文档分类问题。如果您可以访问许多已标记的文档,则可以分析哪些(内容)单词触发哪些标记,然后使用此信息标记新文档 如果您不想使用机器学习方法,并且您仍然有一个文档集合,那么您可以使用诸如筛选有趣单词之类的度量 更进一步,如果同义词的频率较高,则可以使用查找同义词并用同义词替换单词
包含更多关于文本分类的介绍。已有用于此的web服务。两个三个例子:
- 促进剂
- 语法分析(比如在句子中寻找主语和/或动词)
- 格式分析(分析标题、粗体文本、斜体…如适用)
- 引用分析(例如,如果文本在互联网上,那么引用可以用几个词来描述它…被一些搜索引擎使用)
语义分析问题是自第一台计算机出现以来人工智能/机器学习研究中的主要问题之一。可以分两步使用: 1-尝试主题建模算法:
- 潜在Dirichlet分配
- 潜词嵌入