Nlp 如何使用LDA为一个文档提取一个主题_Nlp_Lda_Topic Modeling

Nlp 如何使用LDA为一个文档提取一个主题

nlp

Nlp 如何使用LDA为一个文档提取一个主题,nlp,lda,topic-modeling,Nlp,Lda,Topic Modeling,我们知道LDA设计用于处理大量文档并从中提取k主题。然而，我们的目标是使用LDA为一个文档提取一个主题。我们的第一个方法是：清除数据（小写、lemmatize、删除停止字、标点符号、数字等）使用Countvectorize进行矢量化 LDA（1个主题）一个有趣的观察结果是，LDA输出的前10个关键字正是文档中出现频率最高的10个单词（完全基于计数）。我们想问两个问题：这个观察有意义吗还有其他方法可以实现我们的目标吗事实上，只使用一个主题的LDA只会给你一个单词频率的模糊版本。仅仅使用

我们知道LDA设计用于处理大量文档并从中提取k主题。然而，我们的目标是使用LDA为一个文档提取一个主题。我们的第一个方法是：

清除数据（小写、lemmatize、删除停止字、标点符号、数字等）

使用Countvectorize进行矢量化

LDA（1个主题）

一个有趣的观察结果是，LDA输出的前10个关键字正是文档中出现频率最高的10个单词（完全基于计数）。我们想问两个问题：

这个观察有意义吗

还有其他方法可以实现我们的目标吗

事实上，只使用一个主题的LDA只会给你一个单词频率的模糊版本。仅仅使用一个主题是没有意义的。你能再描述一下你的问题吗？背景是什么？你需要知道“主题”是为了什么？是否有一组可能的主题供您选择？（这甚至可能类似于维基百科页面，但如果没有参考上下文，您的任务就毫无意义）当然！总的来说，我得到了一个关键字和一个文本字符串。我想从文本中提取主题，并计算主题和关键字之间的相关性分数（使用空间词相似度）。我想让它成为一个API，可以处理任何给定的关键字和文本字符串对。我知道LDA是如何工作的，但我不想在语料库（大量文本字符串）上进行主题建模。你是对的，它会给出一个稍微模糊的词频版本。与我的观察类似的是，LDA输出的前10个关键字正是文档中出现频率最高的10个单词（完全基于计数）。这有意义吗？你还推荐什么方法？你能用你想执行的任务的细节更新问题吗？我认为主题建模在您的用例中没有意义。关键字是来自预定义的知识库还是类似的东西？是否有一种明显的方式将其作为一个主题来表达？（通常单个单词在这种情况下相当模糊）。一个简单的方法是用主题查询词的平均词嵌入点生成。如果你有足够的例子来训练一个模型，可以尝试BERT或Google universal Sequence encoder+一个查询主题词的嵌入作为分类器的基础。事实上，只使用一个主题的LDA只会给你一个稍微模糊的词频版本。仅仅使用一个主题是没有意义的。你能再描述一下你的问题吗？背景是什么？你需要知道“主题”是为了什么？是否有一组可能的主题供您选择？（这甚至可能类似于维基百科页面，但如果没有参考上下文，您的任务就毫无意义）当然！总的来说，我得到了一个关键字和一个文本字符串。我想从文本中提取主题，并计算主题和关键字之间的相关性分数（使用空间词相似度）。我想让它成为一个API，可以处理任何给定的关键字和文本字符串对。我知道LDA是如何工作的，但我不想在语料库（大量文本字符串）上进行主题建模。你是对的，它会给出一个稍微模糊的词频版本。与我的观察类似的是，LDA输出的前10个关键字正是文档中出现频率最高的10个单词（完全基于计数）。这有意义吗？你还推荐什么方法？你能用你想执行的任务的细节更新问题吗？我认为主题建模在您的用例中没有意义。关键字是来自预定义的知识库还是类似的东西？是否有一种明显的方式将其作为一个主题来表达？（通常单个单词在这种情况下相当模糊）。一个简单的方法是用主题查询词的平均词嵌入点生成。如果你有足够的例子来训练一个模型，可以尝试BERT或googles通用句子编码器+嵌入查询主题词作为分类器的基础。