Warning: file_get_contents(/data/phpspider/zhask/data//catemap/5/ruby-on-rails-4/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
文本处理(TM软件包)R_R_Tm - Fatal编程技术网

文本处理(TM软件包)R

文本处理(TM软件包)R,r,tm,R,Tm,我的任务的最终目标是为我的分析中的write-in字段准备一包单词,并与相关的电子表格的其余部分合并 我有一个DF(DF)和三个变量a_id,B_text,D_integer。下面的脚本可以很好地完成所有的文本处理(据我所知),但是我忘了保留A_id变量,这样我就可以将这袋单词与电子表格的其余部分合并。我将如何修改下面的代码,以便在分析结束时获得单词包,以及每个观察结果的相关A_id。通过这种方式,我可以将文字包与下面描述的Dintdata合并 library(tm) library(Snowb

我的任务的最终目标是为我的分析中的write-in字段准备一包单词,并与相关的电子表格的其余部分合并

我有一个DF(DF)和三个变量a_id,B_text,D_integer。下面的脚本可以很好地完成所有的文本处理(据我所知),但是我忘了保留A_id变量,这样我就可以将这袋单词与电子表格的其余部分合并。我将如何修改下面的代码,以便在分析结束时获得单词包,以及每个观察结果的相关A_id。通过这种方式,我可以将文字包与下面描述的Dintdata合并

library(tm)
library(SnowballC)

Btextdata<-df[,("B_text")]
Dintdata<- df[,c("A_id","D_integer")]
Btextdata2<-as.character(Btextdata$A_id)



#first write in field in nps data
Content0 <-  Corpus(VectorSource(Btextdata2))
npswhyidk<-tm_map(Content0, PlainTextDocument)
npswhyidk2<-tm_map(npswhyidk,removeNumbers)
# deleted rest of tm_map statements

#turning corpus into bag o words
npswhyuser <- TermDocumentMatrix(npswhyidk2)
library(tm)
图书馆(SnowballC)

BTEXTDATA您可以将
npswhyuser2与cbind一起使用吗?我如何确保它正确地将数据集合并在一起。我觉得如果某些行中缺少值,它们可能无法正确对齐。不过,您提供的代码确实有效。这是因为
Corpus(VectorSource(Btextdata2))
不会更改文档顺序,
DocumentTermMatrix(npswhyidk2))
。dtm的列对应于
df
中的文档,这就是为什么可以将它们列绑定(
cbind()
)回
df()
中的文档级变量。我鼓励您尝试将quanteda作为另一个文本包,因为它在语料库中非常自然地管理文档变量,并且使您正在寻求的操作更加容易。