R 如何定义lda算法的最佳解的参数?
使用lda主题分析如何衡量lda算法的性能R 如何定义lda算法的最佳解的参数?,r,R,使用lda主题分析如何衡量lda算法的性能 library(topicmodels) # parameters for Gibbs sampling burnin <- 4000 iter <- 2000 thin <- 500 seed <-list(1969,5,25,102855,2012) nstart <- 5 best <- TRUE #Number of topics k
library(topicmodels)
# parameters for Gibbs sampling
burnin <- 4000
iter <- 2000
thin <- 500
seed <-list(1969,5,25,102855,2012)
nstart <- 5
best <- TRUE
#Number of topics
k <- 10
library(topicmodels)
data("AssociatedPress", package = "topicmodels")
#Run LDA with Gibbs
ldaOut <-LDA(AssociatedPress[1:20,], k, method="Gibbs", control=list(nstart=nstart, seed = seed, best = best, burnin =
burnin, iter = iter, thin=thin))
库(topicmodels)
#吉布斯抽样参数
burnin注意,LDA是一种无监督的学习算法,因此不可能获得F1分数或准确度等指标,因为我们无法将其与真实标签进行比较。因此,通常通过比较训练期间概率模型假设的分布和测试集的对数似然性来评估算法的性能
监测LDA性能的最常用指标是困惑度和对数似然度。具有更高的对数似然和更低的复杂度的模型被认为是好的
在topicmodels
库中,您可以找到函数complexity
和logLik
,以提取这两个度量值。在您的情况下,它将类似于:
perplexity(ldaOut, newdata = AssociatedPress[1:20,])
要计算logLik
,您需要通过已安装型号的Gibs列表,请查看此处的文档(第8页):