在r中,主题分析会出现一个奇怪的词

在r中,主题分析会出现一个奇怪的词,r,R,我有一段话: 令人作呕的do at是可怕的我们留下来取悦旅行者照片讽刺的是我贴了那些目击照片中的每一件事给了我们自由的拳头然后把我们搬进房间还好吗我们穿着衣服睡觉从来没脱过鞋在地毯上走过淋浴等床上用品窗帘上的墙上污迹洞沙发椅没有当我们打电话去修理时,没有任何东西可以插上,所以除了浴室的电灯,我们没有照明,电视,厕所经常堵塞淋浴排水管 这在语法上似乎有点奇怪,因为我清理了这段文字。我使用下面的代码来提取工作频率 # create corpus docs<-Corpus(VectorSourc

我有一段话:

令人作呕的do at是可怕的我们留下来取悦旅行者照片讽刺的是我贴了那些目击照片中的每一件事给了我们自由的拳头然后把我们搬进房间还好吗我们穿着衣服睡觉从来没脱过鞋在地毯上走过淋浴等床上用品窗帘上的墙上污迹洞沙发椅没有当我们打电话去修理时,没有任何东西可以插上,所以除了浴室的电灯,我们没有照明,电视,厕所经常堵塞淋浴排水管

这在语法上似乎有点奇怪,因为我清理了这段文字。我使用下面的代码来提取工作频率

# create corpus
docs<-Corpus(VectorSource(example))

# stem document
docs<-tm_map(docs,stemDocument)

# create document-term matrix
dtm<-DocumentTermMatrix(docs)

# convert row names
rownames(dtm)<-"example"

# collapse matrix by summing over columns
freq<-colSums(as.matrix(dtm))

# length should be total number of terms
length(freq)

# create sort order (descending)
ord<-order(freq,decreasing=TRUE)

# list all terms in decreasing order of freq and write to disk
freq[ord]

这是词干去掉后的“any”一词。底层函数
wordStem
使用Martin Porter博士的词干生成算法和Snowball生成的C libstemmer库,其逻辑(在本例中是错误的)将
y
更改为
i

,谢谢。有没有其他合理的方法来阻止文档?似乎我确实需要阻止。@AegeanT.Wu当然,您可以使用
gsub
grep
手动阻止它。或者,您可以在底层
wordStem
文件中设置go-into并对其进行调整。我想你也可以尝试切换“porter”和“porter2”,看看它是否会改变它。OTOH您可以保持现在的状态,因为只要您了解发生了什么,就不会有太大问题。@AegeanT.Wu我差点忘了,您还可以使用
RWeka
进行词干分析
docs<-tm_map(docs,stemDocument)