Machine learning 如何使用LDA或任何主题建模算法获取文档的意图

Machine learning 如何使用LDA或任何主题建模算法获取文档的意图,machine-learning,nlp,lda,topic-modeling,Machine Learning,Nlp,Lda,Topic Modeling,我需要根据一组文档的意图对它们进行聚类,我计划使用LDA(潜在Dirichlet分配-主题建模) 我可以从主题建模中获取文档分组的意图吗?是否有其他算法可以根据文档的意图对文档进行聚类。这种使用主题建模进行意图聚类的方法好吗 我在主题建模中尝试过LDA算法,能够得到主题列表,但不确定是否可以将主题视为意图本身。 期望采用一种基于文档组的意图对文档组进行聚类的方法。如前所述,LDA忽略了单词之间相互作用的结构,因此不适用于意图建模 由于使用单词袋模型来表示文档,LDA可能与单词袋模型存在相同的缺点

我需要根据一组文档的意图对它们进行聚类,我计划使用LDA(潜在Dirichlet分配-主题建模)

我可以从主题建模中获取文档分组的意图吗?是否有其他算法可以根据文档的意图对文档进行聚类。这种使用主题建模进行意图聚类的方法好吗

我在主题建模中尝试过LDA算法,能够得到主题列表,但不确定是否可以将主题视为意图本身。

期望采用一种基于文档组的意图对文档组进行聚类的方法。

如前所述,LDA忽略了单词之间相互作用的结构,因此不适用于意图建模

由于使用单词袋模型来表示文档,LDA可能与单词袋模型存在相同的缺点。LDA模型学习一个文档向量,该向量预测文档中的单词,而不考虑任何结构或这些单词在本地级别的交互方式

考虑以下句子:
这是他姐姐的狗(声明)
这是他姐姐的狗吗(问题)

相同的词,不同的顺序,不同的意图


您可能需要标记数据,以及使用神经网络,如CNN或LSTM

据我所知,意图对于聊天机器人和动作处理最有用。它们不考虑主题信息(通常用名词和形容词填充),而是考虑输入的意图(通常用动词和副词表示)。但是,你必须考虑你的上下文和你的应用程序的目的,因为它定义了意图对于建模是否有用。我的问题的背景是根据他们所拥有的内容来分类任何收件箱的电子邮件,这个分类我们认为使用主题建模,我们无法得到上下文相当的关键字。因此,为了解决这个问题,每当您获得一个新的收件箱作为数据集时,我们的应用程序都应该对邮件进行聚类和分组,然后将标签分配给邮件,并训练分类器模型,以便根据它们拥有的标签对所有邮件进行分类。在这种情况下,意图似乎很重要。例如,一个销售人员收件箱可能有多封关于购买目的的电子邮件,而一个业务人员收件箱可能有多封信息性电子邮件,依此类推。有一些方法可以做到这一点,比如识别动词,或者使用NLU工具。玩AllenNLP工具,看看你是否能找到令你感兴趣的东西。查看演示: