R 从lda对象还原原始文档id

R 从lda对象还原原始文档id,r,lda,tidytext,topicmodels,R,Lda,Tidytext,Topicmodels,我试图使用topicmodels中的函数,将术语(在给定文档中)中的“共识”主题预测(beta)与文档本身中最可能预测的主题(gamma)进行比较。 虽然在文档上使用groupby()并在gamma上选择top\n()可以很容易地从文档中提取最可能预测的主题,但是在“beta”估计中,唯一的文档id将在输出中被抑制,输出仅包含三列(主题,术语,beta)。这不允许从给定文档的术语中获得“共识”主题预测(beta) 以我自己的数据为例: Sys.setlocale(“LC_ALL”,“Chine

我试图使用
topicmodels
中的函数,将术语(在给定文档中)中的“共识”主题预测(beta)与文档本身中最可能预测的主题(gamma)进行比较。 虽然在文档上使用
groupby()
并在gamma上选择
top\n()
可以很容易地从文档中提取最可能预测的主题,但是在“beta”估计中,唯一的文档id将在输出中被抑制,输出仅包含三列(
主题
术语
beta
)。这不允许从给定文档的术语中获得“共识”主题预测(beta)

以我自己的数据为例:

Sys.setlocale(“LC_ALL”,“Chinese”)#重置为简体中文编码,因为文本数据为中文
图书馆(外文)
图书馆(dplyr)
图书馆(plyr)
图书馆(tidyverse)
图书馆(tidytext)
图书馆(tm)
库(topicmodels)

sample_dtm如果我理解正确,我相信您需要的函数是,它返回一个表,每个原始文档术语对一行,连接到主题

Sys.setlocale(“LC_ALL”,“Chinese”)#重置为简体中文编码,因为文本数据为中文
#>Sys.setlocale(“LC_ALL”,“Chinese”)中的警告:要设置的操作系统报告请求
#>不能将区域设置更改为“中文”
#> [1] ""
图书馆(外文)
图书馆(dplyr)
图书馆(plyr)
#> -------------------------------------------------------------------------
#>您已在dplyr之后加载plyr-这可能会导致问题。
#>如果您需要plyr和dplyr的功能,请先加载plyr,然后加载dplyr:
#>图书馆(plyr);图书馆(dplyr)
#> -------------------------------------------------------------------------
#> 
#>附上包裹:“plyr”
#>以下对象已从“package:dplyr”屏蔽:
#> 
#>排列、计数、描述、失效、标识、变异、重命名、总结,
#>总结
图书馆(tidyverse)
图书馆(tidytext)
图书馆(tm)
库(topicmodels)
示例\u dtm文档术语计数。主题
#>              
#>  1 649      作揖         1      1
#>  2 649      拳头         1      1
#>  3 649      赞           1      1
#>  4 656      住           1      1
#>  5 656      小区         1      1
#>  6 656      没           1      1
#>  7 656      注意         2      1
#>  8 1916     中国         1      1
#>  9 1916     中国台湾     1      1
#> 10 1916     反对         1      1
#>#…还有18666行
由(v0.2.1)于2019-06-04创建

这将文档ID从LDA模型连接到主题。听起来你已经理解了这一点,但只是重申一下:

  • beta
    矩阵是单词主题概率
  • gamma
    矩阵是文档主题概率

哇,非常感谢@Julia澄清了这一点,这比我想象的要简单得多。(很抱歉,我之前没有注意到您的回复)