Can';t似乎无法从带有R的xlsx中生成用于文本挖掘的语料库
我是R编程新手,看起来应该很容易的事情让我难堪了一个多星期。我的问题是,我似乎无法让R构建一个合适的语料库,然后将其转换为文档术语矩阵(dtm)或基于xlsx电子表格的术语文档矩阵。我似乎在两个方面遇到了问题: 1) 语料库不读取id、文本和类别列。 2) 它不会在dtm中生成适当数量的文档 我的数据结构是一个三列电子表格,具有以下结构 ID术语类别 8675309 Jenny Wall号码是 ID是唯一标识符,术语是描述较长条目的元数据术语,类别是分类变量,是或否取决于项目是否在组中 我的代码如下Can';t似乎无法从带有R的xlsx中生成用于文本挖掘的语料库,r,tm,corpus,R,Tm,Corpus,我是R编程新手,看起来应该很容易的事情让我难堪了一个多星期。我的问题是,我似乎无法让R构建一个合适的语料库,然后将其转换为文档术语矩阵(dtm)或基于xlsx电子表格的术语文档矩阵。我似乎在两个方面遇到了问题: 1) 语料库不读取id、文本和类别列。 2) 它不会在dtm中生成适当数量的文档 我的数据结构是一个三列电子表格,具有以下结构 ID术语类别 8675309 Jenny Wall号码是 ID是唯一标识符,术语是描述较长条目的元数据术语,类别是分类变量,是或否取决于项目是否在组中 我的代码
setwd("c:/users/jared/documents/business/kent project/r directory")
getwd()
#init
install.packages("qdap")
install.packages("xlsx","tm")
install.packages("~/R Scripts/RTextTools_1.4.2.tar.gz", repos = NULL, type = source")
library(tm)
library(xlsx)
library(RTextTools)
file <- "c:/r directory/R Training.xlsx"
adf<-anesthesia_df <- read.xlsx(file, 1, as.data.frame=TRUE,header = TRUE,stringsAsFactors = FALSE)
head(adf)
#Build and Clean Corpus
myReader <- readTabular(mapping=list(content="PROJECT_TERMS", id="APPLICATION_ID"))
adc <- VCorpus(DataframeSource(adf), readerControl=list(reader=myReader))
inspect(adc)
head(adc)
adc <- tm_map(adc, removePunctuation)
adc <- tm_map(adc, removeNumbers)
adc <- tm_map(adc, tolower)
adc <- tm_map(adc, removeWords, stopwords("english"))
ads <- tm_map(adc, stripWhitespace)
adc <- tm_map(adc, PlainTextDocument)
#docs <-tm_map(docs, stemDocument)
adtm<-DocumentTermMatrix(adc)
inspect(adtm)
#Create container for RTextTools
containter<-create_container(adtm, APPLICATION_ID,trainSize = 1:200, testSize = 200:300, virgin=FALSE
setwd(“c:/users/jared/documents/business/kent project/r目录”)
getwd()
#初始化
安装程序包(“qdap”)
安装软件包(“xlsx”、“tm”)
install.packages(“~/R Scripts/RTextTools_1.4.2.tar.gz”,repos=NULL,type=source”)
图书馆(tm)
图书馆(xlsx)
库(RTextTools)
文件