Nlp 如何使用LDA为一个文档提取一个主题

Nlp 如何使用LDA为一个文档提取一个主题,nlp,lda,topic-modeling,Nlp,Lda,Topic Modeling,我们知道LDA设计用于处理大量文档并从中提取k主题。然而,我们的目标是使用LDA为一个文档提取一个主题。我们的第一个方法是: 清除数据(小写、lemmatize、删除停止字、标点符号、数字等) 使用Countvectorize进行矢量化 LDA(1个主题) 一个有趣的观察结果是,LDA输出的前10个关键字正是文档中出现频率最高的10个单词(完全基于计数)。我们想问两个问题: 这个观察有意义吗 还有其他方法可以实现我们的目标吗 事实上,只使用一个主题的LDA只会给你一个单词频率的模糊版本。仅仅使用

我们知道LDA设计用于处理大量文档并从中提取k主题。然而,我们的目标是使用LDA为一个文档提取一个主题。我们的第一个方法是:

  • 清除数据(小写、lemmatize、删除停止字、标点符号、数字等)
  • 使用Countvectorize进行矢量化
  • LDA(1个主题)
  • 一个有趣的观察结果是,LDA输出的前10个关键字正是文档中出现频率最高的10个单词(完全基于计数)。我们想问两个问题:

  • 这个观察有意义吗
  • 还有其他方法可以实现我们的目标吗

  • 事实上,只使用一个主题的LDA只会给你一个单词频率的模糊版本。仅仅使用一个主题是没有意义的。你能再描述一下你的问题吗?背景是什么?你需要知道“主题”是为了什么?是否有一组可能的主题供您选择?(这甚至可能类似于维基百科页面,但如果没有参考上下文,您的任务就毫无意义)当然!总的来说,我得到了一个关键字和一个文本字符串。我想从文本中提取主题,并计算主题和关键字之间的相关性分数(使用空间词相似度)。我想让它成为一个API,可以处理任何给定的关键字和文本字符串对。我知道LDA是如何工作的,但我不想在语料库(大量文本字符串)上进行主题建模。你是对的,它会给出一个稍微模糊的词频版本。与我的观察类似的是,LDA输出的前10个关键字正是文档中出现频率最高的10个单词(完全基于计数)。这有意义吗?你还推荐什么方法?你能用你想执行的任务的细节更新问题吗?我认为主题建模在您的用例中没有意义。关键字是来自预定义的知识库还是类似的东西?是否有一种明显的方式将其作为一个主题来表达?(通常单个单词在这种情况下相当模糊)。一个简单的方法是用主题查询词的平均词嵌入点生成。如果你有足够的例子来训练一个模型,可以尝试BERT或Google universal Sequence encoder+一个查询主题词的嵌入作为分类器的基础。事实上,只使用一个主题的LDA只会给你一个稍微模糊的词频版本。仅仅使用一个主题是没有意义的。你能再描述一下你的问题吗?背景是什么?你需要知道“主题”是为了什么?是否有一组可能的主题供您选择?(这甚至可能类似于维基百科页面,但如果没有参考上下文,您的任务就毫无意义)当然!总的来说,我得到了一个关键字和一个文本字符串。我想从文本中提取主题,并计算主题和关键字之间的相关性分数(使用空间词相似度)。我想让它成为一个API,可以处理任何给定的关键字和文本字符串对。我知道LDA是如何工作的,但我不想在语料库(大量文本字符串)上进行主题建模。你是对的,它会给出一个稍微模糊的词频版本。与我的观察类似的是,LDA输出的前10个关键字正是文档中出现频率最高的10个单词(完全基于计数)。这有意义吗?你还推荐什么方法?你能用你想执行的任务的细节更新问题吗?我认为主题建模在您的用例中没有意义。关键字是来自预定义的知识库还是类似的东西?是否有一种明显的方式将其作为一个主题来表达?(通常单个单词在这种情况下相当模糊)。一个简单的方法是用主题查询词的平均词嵌入点生成。如果你有足够的例子来训练一个模型,可以尝试BERT或googles通用句子编码器+嵌入查询主题词作为分类器的基础。