Nlp 自动关键字生成评估

Nlp 自动关键字生成评估,nlp,text-mining,Nlp,Text Mining,我有一个简单的文本分析器,为给定的输入文本生成关键字。到目前为止,我一直在对它进行手动评估,即手动选择文本的关键字,并将它们与分析器生成的关键字进行比较 有什么方法可以让我自动化吗?我在谷歌上搜索了很多免费的关键字生成器,这些生成器可以帮助我进行评估,但到目前为止还没有找到。如果您能给我一些建议,我将不胜感激。测试关键字生成是一个难题。在过去,我使用以下方法对其进行评估 确定常用的关联规则生成方法,如置信度、Jaccard、Lift、卡方检验、互信息等。有许多论文对这些方法进行了比较 实施这些措

我有一个简单的文本分析器,为给定的输入文本生成关键字。到目前为止,我一直在对它进行手动评估,即手动选择文本的关键字,并将它们与分析器生成的关键字进行比较


有什么方法可以让我自动化吗?我在谷歌上搜索了很多免费的关键字生成器,这些生成器可以帮助我进行评估,但到目前为止还没有找到。如果您能给我一些建议,我将不胜感激。

测试关键字生成是一个难题。在过去,我使用以下方法对其进行评估

  • 确定常用的关联规则生成方法,如置信度、Jaccard、Lift、卡方检验、互信息等。有许多论文对这些方法进行了比较

  • 实施这些措施相当简单。它们都涉及一些使用一个或多个术语频率、文档频率和共现频率的简单代数表达式

  • 使用所有这些度量生成相关关键字并计算它们的并集。称此集合为总计

  • 计算算法生成的关键字与上述总集的交集。当被视为分数(交点/总数)时,它粗略地指示了您的度量有多强大


  • 我发现了一个自动关键字生成评估工具文本机械的,这可能会有所帮助

    它说:

    文本机制的“关键字建议生成器”将以易于调查的格式为您输入的种子文本检索Google.com自动建议结果*。种子文本可以是字母、数字、单词、短语,与您(和其他人)在谷歌搜索结果中查询的内容相关


    我相信它可以自动化。

    关联规则方法如何应用于关键字生成?据我所知,没有真正的规则指导关键字识别(我使用pagerank,并在语料库中识别给定文档的关键字)。这已经有好几年了,我不记得所有内容,但你可以使用关联规则方法来衡量“术语”,即,给定的unigram/ngram是否被视为“术语”。您将需要一个背景语料库来确定一些频率统计数据。当我在2012年回答这个问题时,这曾经是识别短语术语的最先进方法。概述了各种流行的措施。