R中的文本挖掘:创建语料库会创建不寻常的文本

R中的文本挖掘:创建语料库会创建不寻常的文本,r,text-mining,R,Text Mining,我正在阅读一个文本文件和下面的代码。它读起来很好,但在整个语料库中随机放置了一个\t 示例: 原始文本文件 5.如果你是作为一个人回应,。。。。。 语料库中的 “5.\t如果您作为个人响应 或 Q1.我们可以从其他地方吸取什么教训。。。。 “Q1.\t我们可以从其他地方学到什么 在语料库中,选项卡似乎正在被翻译成\t 有没有办法解决这个问题 谢谢 # set pathway to text files folder<-"C:\\xxxxxx\\Text files" folder # li

我正在阅读一个文本文件和下面的代码。它读起来很好,但在整个语料库中随机放置了一个\t

示例: 原始文本文件 5.如果你是作为一个人回应,。。。。。 语料库中的 “5.\t如果您作为个人响应

或 Q1.我们可以从其他地方吸取什么教训。。。。 “Q1.\t我们可以从其他地方学到什么

在语料库中,选项卡似乎正在被翻译成\t

有没有办法解决这个问题

谢谢

# set pathway to text files
folder<-"C:\\xxxxxx\\Text files"
folder
# lists all files in pathway 
list.files(path=folder)
# filters text files only
list.files(path=folder, pattern="*.txt")

# set vector
filelist<-list.files(path=folder, pattern="*.txt")

# assign pathways to files
paste(folder, "\\", filelist)
# removes separations in pathways by setting as empty
filelist<-paste(folder, "\\", filelist, sep="")
filelist

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")
#设置文本文件路径
folder
gsub()
是一个很好的函数,它可以用不同的字符串替换模式的所有实例。对于您的情况,这将有助于:

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")
# replace all '\t' with '   '
corpus<-gsub(pattern = '\\\t', replacement = '', corpus)
#应用函数读取多个txt文件-警告正常

真是太好了!制表符在您的原始文件中--您就是看不到它们,因为制表符是不可打印的字符。它们不是被“插入”或“翻译”——它们是被转义的:\t是制表符字符的转义序列。谢谢赫克托,让我明白了。聪明的托马斯,这很管用。谢谢你的帮助。托马斯,我不得不巧妙地把它改成语料库