RTEXTOOLS create_矩阵返回非字符参数错误_R_Text Mining

RTEXTOOLS create_矩阵返回非字符参数错误

RTEXTOOLS create_矩阵返回非字符参数错误,r,text-mining,R,Text Mining,我是新的文本处理与R。我正在尝试下面的简单代码库（RTextTools）文本我认为这不是字符（输入数据类型）的问题。当我使用NYTimes数据集时出现相同的错误，该数据集随软件包一起提供，并运行帮助手册中附带的相同代码 ngramLength似乎不起作用。以下是一个解决方法： library(RTextTools) library(tm) library(RWeka) # this library is needed for NGramTokenizer library texts <

我是新的文本处理与R。我正在尝试下面的简单代码

库（RTextTools）
文本我认为这不是字符（输入数据类型）的问题。当我使用NYTimes数据集时出现相同的错误，该数据集随软件包一起提供，并运行帮助手册中附带的相同代码
 ngramLength似乎不起作用。以下是一个解决方法：
library(RTextTools)
library(tm)
library(RWeka) # this library is needed for NGramTokenizer
library 
texts <- c("This is the first document.", 
           "Is this a text?", 
           "This is the second file.", 
           "This is the third text.", 
           "File is not this.") 
TrigramTokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
dtm <- DocumentTermMatrix(Corpus(VectorSource(texts)),
                         control=list(
                                      weighting = weightTf,
                                      tokenize = TrigramTokenizer))

as.matrix(dtm)

我遇到了同样的错误。我在这个请求中找到了一个补丁。我通过“trace（create_matrix，edit=T）”进行了更改。现在它工作了：）
我也有这个问题。我已经在文本上运行了许多文本清理包/函数来清理它，它是字符，当我目视检查它时，它看起来很好。我在网上找到的一个解决方案建议使用文本这似乎是正确的解决方案。然而，该修复程序似乎没有被纳入到CRAN中最新的RTextTools中。您是如何实现的？目前，我正在使用trace来管理它，即。我计划联系开发人员或从我不了解的源代码构建包，我认为trace
只是为了调试，你的意思是trace可以用来替换需要修复的代码部分吗？是的，trace是为了调试。但它可以作为一个临时的解决办法来解决这个问题。唯一的缺点是，每当R会话重新启动时，我们使用跟踪添加的修复就会丢失。因此，每当R/RStudio重新启动时，都必须应用修复程序，所以这是一个难看的解决方法，但它可以工作。我下载了源代码并更新了此更改。然后我从这个更新的源安装了这个包。现在它可以永久工作。
isText <- c(T,F,T,T,F)
container <- create_container(dtm, isText, virgin=F, trainSize=1:3, testSize=4:5)

models=train_models(container, algorithm=c("SVM","BOOSTING"))
classify_models(container, models)