Pyspark LDA模型对句子(而不是文档)聚类/分类有用吗?

Pyspark LDA模型对句子(而不是文档)聚类/分类有用吗?,pyspark,cluster-analysis,text-mining,text-classification,lda,Pyspark,Cluster Analysis,Text Mining,Text Classification,Lda,最近,我正在研究句子分类问题,这些句子只不过是一行或两行关于产品的评论,客户会在那里发布关于产品必须提供的各种功能的反馈。在预处理(去除停止词和词干)后,我使用特征提取库(如word2vec、tf idf)和聚类算法(k-mean)对我的句子进行无监督的句子分类-输出是可以接受的。然而,我正在寻找更多关于聚类算法的选项,特别是想尝试LDA以进一步提高输出质量,然而我遇到了一篇文章,列出了一些LDA用于句子分类的事实 我的问题是——在句子(而不是文档)分类中使用LDA会有帮助吗?此外,除了K-me

最近,我正在研究句子分类问题,这些句子只不过是一行或两行关于产品的评论,客户会在那里发布关于产品必须提供的各种功能的反馈。在预处理(去除停止词和词干)后,我使用特征提取库(如word2vec、tf idf)和聚类算法(k-mean)对我的句子进行无监督的句子分类-输出是可以接受的。然而,我正在寻找更多关于聚类算法的选项,特别是想尝试LDA以进一步提高输出质量,然而我遇到了一篇文章,列出了一些LDA用于句子分类的事实

我的问题是——在句子(而不是文档)分类中使用LDA会有帮助吗?此外,除了K-mean之外,还有什么其他无监督学习方法可以很好地用于句子分类。提前谢谢你的建议

注意:我正在使用PySparkAPI在Spark 1.6.1环境中练习

本人试用LDA后,输出如下: 1个主题的结果很相似:每个主题的常用词重叠很多,并且主题共享几乎相同的词集

我的理解之一是,我的评论属于特定领域。例如,我的产品属于信用卡领域&所有评论都围绕这个单一领域。此外,我还试图绘制单词分布图,发现最常使用的单词只占总人口的2%左右。

是的。LDA也可以(但并不总是)处理句子

不过,在较长的文档上,它往往工作得更好。但是你的句子比推特长,这很好。

是的。LDA也可以(但并不总是)处理句子


不过,在较长的文档上,它往往工作得更好。但是你的句子比tweet长,这很好。

重叠不一定是你的输入(文档或句子)的函数,但很可能是你超参数选择的结果。例如,您可以选择较低的alpha来减少主题的重叠

实际上,高alpha值将导致文档在包含的主题方面更加相似。较高的beta值同样会导致主题在包含哪些单词方面更加相似


重叠不一定是输入(文档或句子)的函数,但很可能是超参数选择的结果。例如,您可以选择较低的alpha来减少主题的重叠

实际上,高alpha值将导致文档在包含的主题方面更加相似。较高的beta值同样会导致主题在包含哪些单词方面更加相似

“”“ 与我们提出的“一个 “每句话主题”假设,所有这些方法 允许每个句子包含多个主题,以及 使用各种方法合并句子结构。 最直接的方法是处理每一个问题 将句子作为文档并应用LDA模型 收集句子而不是文件。 尽管它很简单,但这种方法称为局部LDA (Brody和Elhadad,2010年),已经证明 有效地发现有意义的话题,同时 总结消费者评论。(第1376页) """ 请参阅:

“”“ 与我们提出的“一个 “每句话主题”假设,所有这些方法 允许每个句子包含多个主题,以及 使用各种方法合并句子结构。 最直接的方法是处理每一个问题 将句子作为文档并应用LDA模型 收集句子而不是文件。 尽管它很简单,但这种方法称为局部LDA (Brody和Elhadad,2010年),已经证明 有效地发现有意义的话题,同时 总结消费者评论。(第1376页) """
请看:

我不明白那篇没有作者的论文与你的问题有什么关系。它的目的是通过更粗糙的句子层次而不是单词层次的模型来加速LDA。你为什么不试试LDA?是的,我要自己试试。我们的企业版spark 1.6.1()不支持用于LDA的python基础API,但是spark 2.0有它()。使用infra团队进行企业级升级只需稍长时间。同时,我想看看是否有人有过相关的知识和经验。我正在评估产出,我将分享我的个人经验。不带火花地尝试。当你还不知道什么是有效的时,你不需要扩展。Spark通常比一个好的C实现慢得多,你不能把它作为参考。它的功能也非常有限,所以它在Spark中可能不起作用,但在更好的工具中起作用。我看不出那篇作者较少的文章与您的问题有什么关系。它的目的是通过更粗糙的句子层次而不是单词层次的模型来加速LDA。你为什么不试试LDA?是的,我要自己试试。我们的企业版spark 1.6.1()不支持用于LDA的python基础API,但是spark 2.0有它()。使用infra团队进行企业级升级只需稍长时间。同时,我想看看是否有人有过相关的知识和经验。我正在评估产出,我将分享我的个人经验。不带火花地尝试。当你还不知道什么是有效的时,你不需要扩展。Spark通常比一个好的C实现慢得多,你不能把它作为参考。它的功能也非常有限,所以它在Spark中可能不起作用,但在更好的工具中起作用。好的。谢谢你的评论。让我试着运行LDA的审查声明和评估结果,会很快给你。更新后的评论尝试LDA对我的数据。好的。谢谢你的评论。让我尝试运行LDA on reviews语句