Apache spark Spark MLlib LDA,如何打印主题,为每个新文档/未查看文档显示最重要的10个术语?

Apache spark Spark MLlib LDA,如何打印主题,为每个新文档/未查看文档显示最重要的10个术语?,apache-spark,apache-spark-mllib,Apache Spark,Apache Spark Mllib,我在Spark 1.5中使用LDA算法。我首先在训练数据上构建一个分布式LDA模型,然后在新的/看不见的数据上使用该模型进行评估。我用它来生成未看到数据的主题分布 newDocuments: RDD[(Long, Vector)] = ... val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments) 其想法是打印每个新文档中讨论的主题。我如何将上述主题分布与分布式模型中的主题联系起来,并针对每个新文档显示

我在Spark 1.5中使用LDA算法。我首先在训练数据上构建一个分布式LDA模型,然后在新的/看不见的数据上使用该模型进行评估。我用它来生成未看到数据的主题分布

newDocuments: RDD[(Long, Vector)] = ...
val topicDistributions = distLDA.toLocal.topicDistributions(newDocuments)
其想法是打印每个新文档中讨论的主题。我如何将上述主题分布与分布式模型中的主题联系起来,并针对每个新文档显示(1)前5个主要主题的前10个术语(2)文档中提到的哪些术语在前5个主要主题的前5个术语中出现