Machine learning 基于最小上下文的原始文本情感分析与有效聚类

Machine learning 基于最小上下文的原始文本情感分析与有效聚类,machine-learning,apache-spark,nlp,Machine Learning,Apache Spark,Nlp,假设我有一个电子邮件链,其中两个人讨论一个问题及其解决方案。我也有一些背景。例如,电子邮件链是关于在iOS 7上使用iPhone 6时出现的一些问题。就这样。从这些电子邮件的内容/文本中,我需要弄清楚问题到底是什么,提出的解决方案到底是什么 现在,如果我们将这个问题转移到大数据上,即数百万个这样的电子邮件链,我想知道如何对它们进行分类或聚类 我正在使用ApacheSpark的MLlib-LDA、FPgrowth和Kmeans(+大量的停止词列表)。但是我的结果看起来不正确。在这些算法中使用par

假设我有一个电子邮件链,其中两个人讨论一个问题及其解决方案。我也有一些背景。例如,电子邮件链是关于在iOS 7上使用iPhone 6时出现的一些问题。就这样。从这些电子邮件的内容/文本中,我需要弄清楚问题到底是什么,提出的解决方案到底是什么

现在,如果我们将这个问题转移到大数据上,即数百万个这样的电子邮件链,我想知道如何对它们进行分类或聚类

我正在使用ApacheSpark的MLlib-LDA、FPgrowth和Kmeans(+大量的停止词列表)。但是我的结果看起来不正确。在这些算法中使用params只是给了我一些知识,但并没有很好的结果。我最大的问题是没有训练数据。不幸的是,我看到的大多数在线解决方案都使用手动创建的培训数据。有什么帮助吗?

试试看。您可以使用它创建单词向量或句子向量。并在其上进行k-means聚类

如果您正在查找嘈杂的文本数据集,可以签出