R中的词干语料库_R_Text Mining

R中的词干语料库

R中的词干语料库,r,text-mining,R,Text Mining,我正在使用R中的library（tm）包在R中为单词添加词干，但我仍然在文档术语矩阵（dtm）中获得具有相同词根的不同单词。例如，我将“certif”和“certifi”作为不同的词，“categor”和“categor”作为不同的词，“cathet”和“cathet”作为不同的词，“character”和“characteristi”作为不同的词，等等。stemDocument不应该去掉结尾，并将它们作为一个单词计算吗？我怎样才能解决这个问题？这是我使用的代码： docs <- Corp

我正在使用R中的

library（tm）

包在R中为单词添加词干，但我仍然在文档术语矩阵（dtm）中获得具有相同词根的不同单词。例如，我将“certif”和“certifi”作为不同的词，“categor”和“categor”作为不同的词，“cathet”和“cathet”作为不同的词，“character”和“characteristi”作为不同的词，等等。

stemDocument

不应该去掉结尾，并将它们作为一个单词计算吗？我怎样才能解决这个问题？这是我使用的代码：

docs <- Corpus(VectorSource(df$Long_Descriptor)
docs <- tm_map(docs, removePunctuation) %>%
  tm_map(removeNumbers) %>%
  tm_map(content_transformer(tolower), lazy = TRUE) %>%
  tm_map(removeWords, stopwords("english"), lazy = TRUE) %>%
  tm_map(stemDocument, language = c("english"), lazy = TRUE) 

dtm <- DocumentTermMatrix(docs)

docs%
tm\u映射（内容转换器（tolower），惰性=真）%>%
tm_地图（删除单词、停止单词（“英语”），惰性=真）%>%
tm_映射（stemDocument，language=c（“英语”），lazy=TRUE）
dtm没有“完美”的词干生成算法。stemDocument
使用的默认算法是波特的词干生成算法。如果你使用像“category”和“categorization”这样的词，你会发现它们以不同的词干结尾。您可以创建自己的词干生成算法，也可以定义一组您认为同义的词干并自己替换它们。这不是一个容易解决的问题，没有“完美”的词干提取算法。stemDocument
使用的默认算法是波特的词干生成算法。如果你使用像“category”和“categorization”这样的词，你会发现它们以不同的词干结尾。您可以创建自己的词干生成算法，也可以定义一组您认为同义的词干并自己替换它们。这不是一个容易解决的问题。