如何使用spacyr将单词替换为它们的引理?

如何使用spacyr将单词替换为它们的引理?,r,quanteda,R,Quanteda,具有如下数据帧: library(spacyr) df <- data.frame(id = c(102), text = c("the boy's cars are different colors"), stringsAsFactors = FALSE) df2 <- spacy_parse(df$text, pos = TRUE, lemma = FALSE) 库(spacyr) df你可以这样做。我使用的是dplyr而不是aggregate(),我已经

具有如下数据帧:

library(spacyr)
df <- data.frame(id = c(102), text = c("the boy's cars are different colors"), stringsAsFactors = FALSE)
df2 <- spacy_parse(df$text, pos = TRUE, lemma = FALSE)
库(spacyr)

df你可以这样做。我使用的是dplyr而不是
aggregate()
,我已经添加到您的示例中

df%
变异(id=doc_id)%>%
分组依据(id)%>%
总结(text=paste(引理,collapse=“”))
##找到“spacy_condaenv”。spacyr将使用此环境
##已成功初始化(spaCy版本:2.3.0,语言模型:en_core\u web\u sm)
##(python选项:type=“condaenv”,value=“spacy\u condaenv”)
##`summary()`解组输出(用`.groups`参数重写)
###tibble:2x2
##id文本
##                                
##这男孩的车是不同颜色的
##兔子跑得快!

那么您基本上想用柠檬化的单词替换原始文本中的单词(在第一个
df
)吗?@KenBenoit谢谢您的评论。是的,这是你的选择,非常感谢。请了解此错误的原因。
错误:引用类字段“docnames”的赋值无效,应来自类“character”或子类(was类“factor”)
?是的,请确保为docnames赋值的是字符,而不是因子。
df3 <- aggregate(lemma ~ doc_id, df2, paste, collapse = " ")
df <- data.frame(id = c(102), text = c("the boy's car be different color"),
                 stringsAsFactors = FALSE)