Pyspark LDA模型对句子（而不是文档）聚类/分类有用吗？_Pyspark_Cluster Analysis_Text Mining_Text Classification_Lda

Pyspark LDA模型对句子（而不是文档）聚类/分类有用吗？

pyspark

Pyspark LDA模型对句子（而不是文档）聚类/分类有用吗？,pyspark,cluster-analysis,text-mining,text-classification,lda,Pyspark,Cluster Analysis,Text Mining,Text Classification,Lda,最近，我正在研究句子分类问题，这些句子只不过是一行或两行关于产品的评论，客户会在那里发布关于产品必须提供的各种功能的反馈。在预处理（去除停止词和词干）后，我使用特征提取库（如word2vec、tf idf）和聚类算法（k-mean）对我的句子进行无监督的句子分类-输出是可以接受的。然而，我正在寻找更多关于聚类算法的选项，特别是想尝试LDA以进一步提高输出质量，然而我遇到了一篇文章，列出了一些LDA用于句子分类的事实我的问题是——在句子（而不是文档）分类中使用LDA会有帮助吗？此外，除了K-me

最近，我正在研究句子分类问题，这些句子只不过是一行或两行关于产品的评论，客户会在那里发布关于产品必须提供的各种功能的反馈。在预处理（去除停止词和词干）后，我使用特征提取库（如word2vec、tf idf）和聚类算法（k-mean）对我的句子进行无监督的句子分类-输出是可以接受的。然而，我正在寻找更多关于聚类算法的选项，特别是想尝试LDA以进一步提高输出质量，然而我遇到了一篇文章，列出了一些LDA用于句子分类的事实

我的问题是——在句子（而不是文档）分类中使用LDA会有帮助吗？此外，除了K-mean之外，还有什么其他无监督学习方法可以很好地用于句子分类。提前谢谢你的建议

注意：我正在使用PySparkAPI在Spark 1.6.1环境中练习

本人试用LDA后，输出如下： 1个主题的结果很相似：每个主题的常用词重叠很多，并且主题共享几乎相同的词集

我的理解之一是，我的评论属于特定领域。例如，我的产品属于信用卡领域&所有评论都围绕这个单一领域。此外，我还试图绘制单词分布图，发现最常使用的单词只占总人口的2%左右。

是的。LDA也可以（但并不总是）处理句子

不过，在较长的文档上，它往往工作得更好。但是你的句子比推特长，这很好。

是的。LDA也可以（但并不总是）处理句子

不过，在较长的文档上，它往往工作得更好。但是你的句子比tweet长，这很好。

重叠不一定是你的输入（文档或句子）的函数，但很可能是你超参数选择的结果。例如，您可以选择较低的alpha来减少主题的重叠

从

实际上，高alpha值将导致文档在包含的主题方面更加相似。较高的beta值同样会导致主题在包含哪些单词方面更加相似

重叠不一定是输入（文档或句子）的函数，但很可能是超参数选择的结果。例如，您可以选择较低的alpha来减少主题的重叠

从

实际上，高alpha值将导致文档在包含的主题方面更加相似。较高的beta值同样会导致主题在包含哪些单词方面更加相似

“”“ 与我们提出的“一个 “每句话主题”假设，所有这些方法允许每个句子包含多个主题，以及使用各种方法合并句子结构。最直接的方法是处理每一个问题将句子作为文档并应用LDA模型收集句子而不是文件。尽管它很简单，但这种方法称为局部LDA （Brody和Elhadad，2010年），已经证明有效地发现有意义的话题，同时总结消费者评论。（第1376页） """ 请参阅：

请看：

我不明白那篇没有作者的论文与你的问题有什么关系。它的目的是通过更粗糙的句子层次而不是单词层次的模型来加速LDA。你为什么不试试LDA？是的，我要自己试试。我们的企业版spark 1.6.1（）不支持用于LDA的python基础API，但是spark 2.0有它（）。使用infra团队进行企业级升级只需稍长时间。同时，我想看看是否有人有过相关的知识和经验。我正在评估产出，我将分享我的个人经验。不带火花地尝试。当你还不知道什么是有效的时，你不需要扩展。Spark通常比一个好的C实现慢得多，你不能把它作为参考。它的功能也非常有限，所以它在Spark中可能不起作用，但在更好的工具中起作用。我看不出那篇作者较少的文章与您的问题有什么关系。它的目的是通过更粗糙的句子层次而不是单词层次的模型来加速LDA。你为什么不试试LDA？是的，我要自己试试。我们的企业版spark 1.6.1（）不支持用于LDA的python基础API，但是spark 2.0有它（）。使用infra团队进行企业级升级只需稍长时间。同时，我想看看是否有人有过相关的知识和经验。我正在评估产出，我将分享我的个人经验。不带火花地尝试。当你还不知道什么是有效的时，你不需要扩展。Spark通常比一个好的C实现慢得多，你不能把它作为参考。它的功能也非常有限，所以它在Spark中可能不起作用，但在更好的工具中起作用。好的。谢谢你的评论。让我试着运行LDA的审查声明和评估结果，会很快给你。更新后的评论尝试LDA对我的数据。好的。谢谢你的评论。让我尝试运行LDA on reviews语句