R findAssocs（tm）返回未计算正确相关性，所有比较的单词返回1_R_Tm

R findAssocs（tm）返回未计算正确相关性，所有比较的单词返回1

R findAssocs（tm）返回未计算正确相关性，所有比较的单词返回1,r,tm,R,Tm,我需要帮助找出我做错了什么。我已经从2个文本文件创建了语料库，并且创建了DocumentTermMatrix，但是相关性返回值1，就好像数据正在检查一个单词和它自己的单词之间的相关性，或者如果所有单词都属于同一个向量。有一段时间，虽然导入到语料库时出现了分隔符问题，但我不知道我做错了什么 setwd("C:/Users/kangom/Documents") options(stringAsFactors = FALSE) library(tm) docs <- Corpus(DirSour

我需要帮助找出我做错了什么。我已经从2个文本文件创建了语料库，并且创建了DocumentTermMatrix，但是相关性返回值1，就好像数据正在检查一个单词和它自己的单词之间的相关性，或者如果所有单词都属于同一个向量。有一段时间，虽然导入到语料库时出现了分隔符问题，但我不知道我做错了什么

setwd("C:/Users/kangom/Documents")
options(stringAsFactors = FALSE)
library(tm)
docs <- Corpus(DirSource("cmtxtmining"))
summary(docs)

然后我做了：

docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
dtm <- DocumentTermMatrix(docs)
dtms <- removeSparseTerms(dtm, 0.1)
inspect(dtms[1:2, 1:50])

名单还在继续

findAssocs(dtms, "account", corlimit=0.6) #(similar result with findAssocs(dtm, "account", corlimit=0.6))

#                             account
#able                               1
#accelerate                         1
#accepting                          1
#accidents                          1
#accountability                     1
#accountable                        1
#accountably                        1
#achieve                            1
#acquisition                        1
#across                             1
#acting                             1
#action                             1
#active                             1
#activities                         1
#adapting                           1
#address                            1
#addressing                         1
#adjust                             1
#aesb                               1
#affect                             1
#aggressive                         1
#aggressively                       1
#aggressiveness                     1
#aim                                1
#alex                               1
#align                              1
#aligned                            1
#alignment                          1
#alive                              1
#allow                              1
#...
#zero                               1

我不确定这一点，但由于只有两份文件，总共50个单词，也许您尝试过的两个单词都在两份文件中，因此关联度为100%，即1.谢谢。我最终弄明白了这个问题。语料库是在不分开行的情况下创建的，就像一个长句子被分析一样。当使用制表符分隔符并将其加载到数据帧中时，我使用包gsubfn读取该行。然后使用DataframeSource或创建语料库。现在一切都好了。打字错误：gsubfn使用制表符分隔符帮助阅读文本中的行

#A document-term matrix (2 documents, 50 terms)

#Non-/sparse entries: 100/0
#Sparsity           : 0%
#Maximal term length: 20 
#Weighting          : term frequency (tf)

#                Terms
#Docs             aaron abilities ability able accelerate accept accepting
#  cmstrenght.txt     2         4     119   16          1      4         1
#  cmweakness.txt     1         2      17   29         13      2         2
#                Terms
#Docs             accepts accident accidents accomplish accomplishments
#  cmstrenght.txt      10      113        17          3               2
#  cmweakness.txt       2      105        37          2               2
#                Terms
#Docs             accordingly account accountabilities accountability
#  cmstrenght.txt           1       1                2             54
#  cmweakness.txt           1       2                2            141

findAssocs(dtms, "account", corlimit=0.6) #(similar result with findAssocs(dtm, "account", corlimit=0.6))

#                             account
#able                               1
#accelerate                         1
#accepting                          1
#accidents                          1
#accountability                     1
#accountable                        1
#accountably                        1
#achieve                            1
#acquisition                        1
#across                             1
#acting                             1
#action                             1
#active                             1
#activities                         1
#adapting                           1
#address                            1
#addressing                         1
#adjust                             1
#aesb                               1
#affect                             1
#aggressive                         1
#aggressively                       1
#aggressiveness                     1
#aim                                1
#alex                               1
#align                              1
#aligned                            1
#alignment                          1
#alive                              1
#allow                              1
#...
#zero                               1