R中的词干语料库

R中的词干语料库,r,text-mining,R,Text Mining,我正在使用R中的library(tm)包在R中为单词添加词干,但我仍然在文档术语矩阵(dtm)中获得具有相同词根的不同单词。例如,我将“certif”和“certifi”作为不同的词,“categor”和“categor”作为不同的词,“cathet”和“cathet”作为不同的词,“character”和“characteristi”作为不同的词,等等。stemDocument不应该去掉结尾,并将它们作为一个单词计算吗?我怎样才能解决这个问题?这是我使用的代码: docs <- Corp

我正在使用R中的
library(tm)
包在R中为单词添加词干,但我仍然在文档术语矩阵(dtm)中获得具有相同词根的不同单词。例如,我将“certif”和“certifi”作为不同的词,“categor”和“categor”作为不同的词,“cathet”和“cathet”作为不同的词,“character”和“characteristi”作为不同的词,等等。
stemDocument
不应该去掉结尾,并将它们作为一个单词计算吗?我怎样才能解决这个问题?这是我使用的代码:

docs <- Corpus(VectorSource(df$Long_Descriptor)
docs <- tm_map(docs, removePunctuation) %>%
  tm_map(removeNumbers) %>%
  tm_map(content_transformer(tolower), lazy = TRUE) %>%
  tm_map(removeWords, stopwords("english"), lazy = TRUE) %>%
  tm_map(stemDocument, language = c("english"), lazy = TRUE) 

dtm <- DocumentTermMatrix(docs)
docs%
tm\u映射(内容转换器(tolower),惰性=真)%>%
tm_地图(删除单词、停止单词(“英语”),惰性=真)%>%
tm_映射(stemDocument,language=c(“英语”),lazy=TRUE)
dtm没有“完美”的词干生成算法。
stemDocument
使用的默认算法是波特的词干生成算法。如果你使用像“category”和“categorization”这样的词,你会发现它们以不同的词干结尾。您可以创建自己的词干生成算法,也可以定义一组您认为同义的词干并自己替换它们。这不是一个容易解决的问题,没有“完美”的词干提取算法。
stemDocument
使用的默认算法是波特的词干生成算法。如果你使用像“category”和“categorization”这样的词,你会发现它们以不同的词干结尾。您可以创建自己的词干生成算法,也可以定义一组您认为同义的词干并自己替换它们。这不是一个容易解决的问题。