Apache spark Spark MLlib LDA，如何打印主题，为每个新文档/未查看文档显示最重要的10个术语？_Apache Spark_Apache Spark Mllib

Apache spark Spark MLlib LDA，如何打印主题，为每个新文档/未查看文档显示最重要的10个术语？

apache-spark

Apache spark Spark MLlib LDA，如何打印主题，为每个新文档/未查看文档显示最重要的10个术语？,apache-spark,apache-spark-mllib,Apache Spark,Apache Spark Mllib,我在Spark 1.5中使用LDA算法。我首先在训练数据上构建一个分布式LDA模型，然后在新的/看不见的数据上使用该模型进行评估。我用它来生成未看到数据的主题分布 newDocuments: RDD[(Long, Vector)] = ... val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments) 其想法是打印每个新文档中讨论的主题。我如何将上述主题分布与分布式模型中的主题联系起来，并针对每个新文档显示

我在Spark 1.5中使用LDA算法。我首先在训练数据上构建一个分布式LDA模型，然后在新的/看不见的数据上使用该模型进行评估。我用它来生成未看到数据的主题分布

newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)

其想法是打印每个新文档中讨论的主题。我如何将上述主题分布与分布式模型中的主题联系起来，并针对每个新文档显示（1）前5个主要主题的前10个术语（2）文档中提到的哪些术语在前5个主要主题的前5个术语中出现