R 从lda对象还原原始文档id_R_Lda_Tidytext_Topicmodels

R 从lda对象还原原始文档id

R 从lda对象还原原始文档id,r,lda,tidytext,topicmodels,R,Lda,Tidytext,Topicmodels,我试图使用topicmodels中的函数，将术语（在给定文档中）中的“共识”主题预测（beta）与文档本身中最可能预测的主题（gamma）进行比较。虽然在文档上使用groupby（）并在gamma上选择top\n（）可以很容易地从文档中提取最可能预测的主题，但是在“beta”估计中，唯一的文档id将在输出中被抑制，输出仅包含三列（主题，术语，beta）。这不允许从给定文档的术语中获得“共识”主题预测（beta）以我自己的数据为例： Sys.setlocale（“LC_ALL”，“Chine

我试图使用

topicmodels

中的函数，将术语（在给定文档中）中的“共识”主题预测（beta）与文档本身中最可能预测的主题（gamma）进行比较。虽然在文档上使用

groupby（）

并在gamma上选择

top\n（）

可以很容易地从文档中提取最可能预测的主题，但是在“beta”估计中，唯一的文档id将在输出中被抑制，输出仅包含三列（

主题

，

术语

，

beta

）。这不允许从给定文档的术语中获得“共识”主题预测（beta）

以我自己的数据为例：

Sys.setlocale（“LC_ALL”，“Chinese”）#重置为简体中文编码，因为文本数据为中文
图书馆（外文）
图书馆（dplyr）
图书馆（plyr）
图书馆（tidyverse）
图书馆（tidytext）
图书馆（tm）
库（topicmodels）
sample_dtm如果我理解正确，我相信您需要的函数是，它返回一个表，每个原始文档术语对一行，连接到主题
Sys.setlocale（“LC_ALL”，“Chinese”）#重置为简体中文编码，因为文本数据为中文
#>Sys.setlocale（“LC_ALL”，“Chinese”）中的警告：要设置的操作系统报告请求
#>不能将区域设置更改为“中文”
#> [1] ""
图书馆（外文）
图书馆（dplyr）
图书馆（plyr）
#> -------------------------------------------------------------------------
#>您已在dplyr之后加载plyr-这可能会导致问题。
#>如果您需要plyr和dplyr的功能，请先加载plyr，然后加载dplyr：
#>图书馆（plyr）；图书馆（dplyr）
#> -------------------------------------------------------------------------
#> 
#>附上包裹：“plyr”
#>以下对象已从“package:dplyr”屏蔽：
#> 
#>排列、计数、描述、失效、标识、变异、重命名、总结，
#>总结
图书馆（tidyverse）
图书馆（tidytext）
图书馆（tm）
库（topicmodels）
示例\u dtm文档术语计数。主题
#>              
#>  1 649      作揖         1      1
#>  2 649      拳头         1      1
#>  3 649      赞           1      1
#>  4 656      住           1      1
#>  5 656      小区         1      1
#>  6 656      没           1      1
#>  7 656      注意         2      1
#>  8 1916     中国         1      1
#>  9 1916     中国台湾     1      1
#> 10 1916     反对         1      1
#>#…还有18666行

由（v0.2.1）于2019-06-04创建
这将文档ID从LDA模型连接到主题。听起来你已经理解了这一点，但只是重申一下：

beta
矩阵是单词主题概率
gamma
矩阵是文档主题概率
哇，非常感谢@Julia澄清了这一点，这比我想象的要简单得多。（很抱歉，我之前没有注意到您的回复）