简单三元组矩阵中出错--无法使用RWeka计算短语_R_Tm

简单三元组矩阵中出错--无法使用RWeka计算短语

简单三元组矩阵中出错--无法使用RWeka计算短语,r,tm,R,Tm,使用TM，我将DocumentTermMatrix与字典列表进行比较，以计算总数： totals <- inspect(DocumentTermMatrix(x, list(dictionary = d))) 你能帮我处理这个错误消息吗谢谢看到我的答案了吗使用RWeka与并行软件包时似乎存在问题。我找到解决方案 : 最重要的一点是不要加载RWeka包并在封装的函数中使用名称空间所以你的标记器应该看起来像 BigramTokenizer <- function(x) {R

使用TM，我将DocumentTermMatrix与字典列表进行比较，以计算总数：

totals <- inspect(DocumentTermMatrix(x, list(dictionary = d)))

你能帮我处理这个错误消息吗

谢谢

看到我的答案了吗

使用RWeka与并行软件包时似乎存在问题。我找到解决方案

最重要的一点是不要加载RWeka包并在封装的函数中使用名称空间

所以你的标记器应该看起来像

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}

BigramTokenizer你试过一些答案吗？我投票决定结束，因为没有答案
Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms),  : 
  'i, j, v' different lengths
In addition: Warning messages:
1: In parallel::mclapply(x, termFreq, control) :
  all scheduled cores encountered errors in user code
2: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL'
3: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms),  :
  NAs introduced by coercion.

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}