RTEXTOOLS create_矩阵返回非字符参数错误

RTEXTOOLS create_矩阵返回非字符参数错误,r,text-mining,R,Text Mining,我是新的文本处理与R。我正在尝试下面的简单代码 库(RTextTools) 文本我认为这不是字符(输入数据类型)的问题。当我使用NYTimes数据集时出现相同的错误,该数据集随软件包一起提供,并运行帮助手册中附带的相同代码 ngramLength似乎不起作用。以下是一个解决方法: library(RTextTools) library(tm) library(RWeka) # this library is needed for NGramTokenizer library texts <

我是新的文本处理与R。我正在尝试下面的简单代码

库(RTextTools)

文本我认为这不是字符(输入数据类型)的问题。当我使用NYTimes数据集时出现相同的错误,该数据集随软件包一起提供,并运行帮助手册中附带的相同代码

ngramLength似乎不起作用。以下是一个解决方法:

library(RTextTools)
library(tm)
library(RWeka) # this library is needed for NGramTokenizer
library 
texts <- c("This is the first document.", 
           "Is this a text?", 
           "This is the second file.", 
           "This is the third text.", 
           "File is not this.") 
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
dtm <- DocumentTermMatrix(Corpus(VectorSource(texts)),
                         control=list(
                                      weighting = weightTf,
                                      tokenize = TrigramTokenizer))

as.matrix(dtm)

我遇到了同样的错误。我在这个请求中找到了一个补丁。我通过“trace(create_matrix,edit=T)”进行了更改。现在它工作了:)

我也有这个问题。我已经在文本上运行了许多文本清理包/函数来清理它,它是字符,当我目视检查它时,它看起来很好。我在网上找到的一个解决方案建议使用
文本这似乎是正确的解决方案。然而,该修复程序似乎没有被纳入到CRAN中最新的RTextTools中。您是如何实现的?目前,我正在使用trace来管理它,即。我计划联系开发人员或从我不了解的源代码构建包,我认为
trace
只是为了调试,你的意思是
trace
可以用来替换需要修复的代码部分吗?是的,trace是为了调试。但它可以作为一个临时的解决办法来解决这个问题。唯一的缺点是,每当R会话重新启动时,我们使用跟踪添加的修复就会丢失。因此,每当R/RStudio重新启动时,都必须应用修复程序,所以这是一个难看的解决方法,但它可以工作。我下载了源代码并更新了此更改。然后我从这个更新的源安装了这个包。现在它可以永久工作。
isText <- c(T,F,T,T,F)
container <- create_container(dtm, isText, virgin=F, trainSize=1:3, testSize=4:5)

models=train_models(container, algorithm=c("SVM","BOOSTING"))
classify_models(container, models)