R 从lda对象还原原始文档id
我试图使用R 从lda对象还原原始文档id,r,lda,tidytext,topicmodels,R,Lda,Tidytext,Topicmodels,我试图使用topicmodels中的函数,将术语(在给定文档中)中的“共识”主题预测(beta)与文档本身中最可能预测的主题(gamma)进行比较。 虽然在文档上使用groupby()并在gamma上选择top\n()可以很容易地从文档中提取最可能预测的主题,但是在“beta”估计中,唯一的文档id将在输出中被抑制,输出仅包含三列(主题,术语,beta)。这不允许从给定文档的术语中获得“共识”主题预测(beta) 以我自己的数据为例: Sys.setlocale(“LC_ALL”,“Chine
topicmodels
中的函数,将术语(在给定文档中)中的“共识”主题预测(beta)与文档本身中最可能预测的主题(gamma)进行比较。
虽然在文档上使用groupby()
并在gamma上选择top\n()
可以很容易地从文档中提取最可能预测的主题,但是在“beta”估计中,唯一的文档id将在输出中被抑制,输出仅包含三列(主题
,术语
,beta
)。这不允许从给定文档的术语中获得“共识”主题预测(beta)
以我自己的数据为例:
Sys.setlocale(“LC_ALL”,“Chinese”)#重置为简体中文编码,因为文本数据为中文
图书馆(外文)
图书馆(dplyr)
图书馆(plyr)
图书馆(tidyverse)
图书馆(tidytext)
图书馆(tm)
库(topicmodels)
sample_dtm如果我理解正确,我相信您需要的函数是,它返回一个表,每个原始文档术语对一行,连接到主题
Sys.setlocale(“LC_ALL”,“Chinese”)#重置为简体中文编码,因为文本数据为中文
#>Sys.setlocale(“LC_ALL”,“Chinese”)中的警告:要设置的操作系统报告请求
#>不能将区域设置更改为“中文”
#> [1] ""
图书馆(外文)
图书馆(dplyr)
图书馆(plyr)
#> -------------------------------------------------------------------------
#>您已在dplyr之后加载plyr-这可能会导致问题。
#>如果您需要plyr和dplyr的功能,请先加载plyr,然后加载dplyr:
#>图书馆(plyr);图书馆(dplyr)
#> -------------------------------------------------------------------------
#>
#>附上包裹:“plyr”
#>以下对象已从“package:dplyr”屏蔽:
#>
#>排列、计数、描述、失效、标识、变异、重命名、总结,
#>总结
图书馆(tidyverse)
图书馆(tidytext)
图书馆(tm)
库(topicmodels)
示例\u dtm文档术语计数。主题
#>
#> 1 649 作揖 1 1
#> 2 649 拳头 1 1
#> 3 649 赞 1 1
#> 4 656 住 1 1
#> 5 656 小区 1 1
#> 6 656 没 1 1
#> 7 656 注意 2 1
#> 8 1916 中国 1 1
#> 9 1916 中国台湾 1 1
#> 10 1916 反对 1 1
#>#…还有18666行
由(v0.2.1)于2019-06-04创建
这将文档ID从LDA模型连接到主题。听起来你已经理解了这一点,但只是重申一下:
beta
矩阵是单词主题概率
gamma
矩阵是文档主题概率
哇,非常感谢@Julia澄清了这一点,这比我想象的要简单得多。(很抱歉,我之前没有注意到您的回复)