Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/71.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R文本挖掘问题_R_Tm - Fatal编程技术网

R文本挖掘问题

R文本挖掘问题,r,tm,R,Tm,我对编程完全陌生,我现在正在做我的ResMA,我已经开始学习R 我现在必须做一些非常简单的事情,我似乎在某个时候失败了。我只需要数一个txt文件中的字母,其他什么都不用数。我首先用TM创建了一个语料库,我正在清理它和所有的东西,但是当我尝试运行每个字的频率分析时,文本实际上没有清理标点符号和奇怪的符号等 我使用的代码如下: library("tm") library("SnowballC") library("wordcloud") library("RColorBrewer") filePat

我对编程完全陌生,我现在正在做我的ResMA,我已经开始学习R

我现在必须做一些非常简单的事情,我似乎在某个时候失败了。我只需要数一个txt文件中的字母,其他什么都不用数。我首先用TM创建了一个语料库,我正在清理它和所有的东西,但是当我尝试运行每个字的频率分析时,文本实际上没有清理标点符号和奇怪的符号等

我使用的代码如下:

library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")
filePath <- choose.files()
text <- readLines(filePath)
docs <- Corpus(VectorSource(text))
toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/")
docs <- tm_map(docs, toSpace, "@")
docs <- tm_map(docs, toSpace, "\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
print (docs)

x=strsplit(text, "")

newlist = unlist(x,recursive=F)
freqtab = table(newlist)

print (freqtab)
library(“tm”)
图书馆(“滚雪球”)
图书馆(“wordcloud”)
图书馆(“RColorBrewer”)

filePath问题在于您没有在所有操作中修改
文本
;您正在处理
文档

使用帖子中的简单示例运行代码,如
text

text <- "I am going to school!"
docs <- Corpus(VectorSource(text))
toSpace <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/")
docs <- tm_map(docs, toSpace, "@")
docs <- tm_map(docs, toSpace, "\\|")
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
尽管注意到由于词干分析器,“Gong”被转换为“go”

然后你可以像在你的原始代码中一样计算字符

x=strsplit(as.character(unlist(docs)[1]), "")
freqtab = table(x[[1]])
print(freqtab)

  a c g h i l m o s t 
4 1 1 1 1 1 1 1 4 1 1
希望能有帮助

x=strsplit(as.character(unlist(docs)[1]), "")
freqtab = table(x[[1]])
print(freqtab)

  a c g h i l m o s t 
4 1 1 1 1 1 1 1 4 1 1