Apache spark ml.clustering.LocalLDAModel中无主题分布(..)方法
我正在使用Apache spark ml.clustering.LocalLDAModel中无主题分布(..)方法,apache-spark,apache-spark-mllib,apache-spark-ml,apache-spark-2.0,Apache Spark,Apache Spark Mllib,Apache Spark Ml,Apache Spark 2.0,我正在使用org.apache.spark.ml.clustering.LDA进行主题建模(使用在线优化器) 它返回org.apache.spark.ml.clustering.LocalLDAModel。然而,在那里使用这个模型 似乎没有任何方法可以让主题分布在文档上。 而较旧的mllibAPI(org.apache.spark.mllib.clustering.LocalLDAModel)确实有这种方法 确切地说,就是org.apache.spark.mllib.clustering.Loc
org.apache.spark.ml.clustering.LDA
进行主题建模(使用在线优化器)
它返回org.apache.spark.ml.clustering.LocalLDAModel
。然而,在那里使用这个模型
似乎没有任何方法可以让主题分布在文档上。
而较旧的mllib
API(org.apache.spark.mllib.clustering.LocalLDAModel
)确实有这种方法
确切地说,就是org.apache.spark.mllib.clustering.LocalLDAModel.topicDistributions(..)
我不知道为什么会这样。特别是,考虑到新的ml.LDA
使用旧的
mllib.LDA
并将旧的mllib.LocalLDAModel
自身包装在新的
ml.LocalLDAModel
那么,请有人澄清一下:
1.为什么会这样?
2.在新版本中获取主题分布的正确方法是什么(如果有的话)
ml.LocalLDAModel
另外,我总是可以修改spark代码以公开旧API,但我不确定它为什么会隐藏在第一位。考虑
ldaModel.transform(dataset)
它通过一个附加列topicDistribution
扩展您的数据集,在那里您可以得到想要的内容(dataset
是传递给LDAModel
实例的fit()
方法的数据集