文本处理(TM软件包)R
我的任务的最终目标是为我的分析中的write-in字段准备一包单词,并与相关的电子表格的其余部分合并 我有一个DF(DF)和三个变量a_id,B_text,D_integer。下面的脚本可以很好地完成所有的文本处理(据我所知),但是我忘了保留A_id变量,这样我就可以将这袋单词与电子表格的其余部分合并。我将如何修改下面的代码,以便在分析结束时获得单词包,以及每个观察结果的相关A_id。通过这种方式,我可以将文字包与下面描述的Dintdata合并文本处理(TM软件包)R,r,tm,R,Tm,我的任务的最终目标是为我的分析中的write-in字段准备一包单词,并与相关的电子表格的其余部分合并 我有一个DF(DF)和三个变量a_id,B_text,D_integer。下面的脚本可以很好地完成所有的文本处理(据我所知),但是我忘了保留A_id变量,这样我就可以将这袋单词与电子表格的其余部分合并。我将如何修改下面的代码,以便在分析结束时获得单词包,以及每个观察结果的相关A_id。通过这种方式,我可以将文字包与下面描述的Dintdata合并 library(tm) library(Snowb
library(tm)
library(SnowballC)
Btextdata<-df[,("B_text")]
Dintdata<- df[,c("A_id","D_integer")]
Btextdata2<-as.character(Btextdata$A_id)
#first write in field in nps data
Content0 <- Corpus(VectorSource(Btextdata2))
npswhyidk<-tm_map(Content0, PlainTextDocument)
npswhyidk2<-tm_map(npswhyidk,removeNumbers)
# deleted rest of tm_map statements
#turning corpus into bag o words
npswhyuser <- TermDocumentMatrix(npswhyidk2)
library(tm)
图书馆(SnowballC)
BTEXTDATA您可以将npswhyuser2与cbind一起使用吗?我如何确保它正确地将数据集合并在一起。我觉得如果某些行中缺少值,它们可能无法正确对齐。不过,您提供的代码确实有效。这是因为Corpus(VectorSource(Btextdata2))
不会更改文档顺序,DocumentTermMatrix(npswhyidk2))
。dtm的列对应于df
中的文档,这就是为什么可以将它们列绑定(cbind()
)回df()
中的文档级变量。我鼓励您尝试将quanteda作为另一个文本包,因为它在语料库中非常自然地管理文档变量,并且使您正在寻求的操作更加容易。