Quanteda将fcm输出转换为data.frame

Quanteda将fcm输出转换为data.frame,r,nlp,converters,quanteda,R,Nlp,Converters,Quanteda,我试图用奇妙的量子理论来研究新闻文章中术语的共现现象 我可以找到与“”同时出现的功能美国" (美国)情况如下: ch14_corp <- corpus(data_14) ch14_toks <- tokens(ch14_corp, remove_punct = TRUE) %>% + tokens_remove(ch_stop) ch14_fcm <- fcm(ch14_toks, context = "window") 有谁能告诉我如何将其转换为

我试图用奇妙的量子理论来研究新闻文章中术语的共现现象

我可以找到与“”同时出现的功能美国" (美国)情况如下:

ch14_corp <- corpus(data_14)
ch14_toks <- tokens(ch14_corp, remove_punct = TRUE) %>%
+ tokens_remove(ch_stop)
ch14_fcm <- fcm(ch14_toks, context = "window")

有谁能告诉我如何将其转换为“data.frame”或a列中带有“feature”的表,以及它与“data.frame”同时出现的次数美国' 在B栏


我想另一种方法可能是不使用“topfeatures”,而是只获取矩阵的行(或列?),其中包含与“topfeatures”同时出现的所有术语美国', 然后根据它们同时出现的次数对它们进行排序?

我认为如果我按照以下方法进行排序,会有效吗

df <- as.data.frame(t(mat_term)
colnames(df)[1] <- "Term"  
colnames(df)[2] <- "Freq"  
us_co <- df[order(-df$Freq),]  
us_co[1:100,] 

df这或多或少是正确的。下面是我如何使用内置示例来实现这一点的,您可以根据需要替换文本和不同的参数(例如
n

请注意
padding=TRUE
:这会在删除标点符号或停止字的空间中留下一个空白,这样以前由一个删除的标记分隔的字的近似值就不会增加

库(“quanteda”)
##软件包版本:2.1.1
ch14_公司%
代币
ch14_fcm
df <- as.data.frame(t(mat_term)
colnames(df)[1] <- "Term"  
colnames(df)[2] <- "Freq"  
us_co <- df[order(-df$Freq),]  
us_co[1:100,]