R中的文本挖掘：创建语料库会创建不寻常的文本_R_Text Mining

R中的文本挖掘：创建语料库会创建不寻常的文本

R中的文本挖掘：创建语料库会创建不寻常的文本,r,text-mining,R,Text Mining,我正在阅读一个文本文件和下面的代码。它读起来很好，但在整个语料库中随机放置了一个\t 示例：原始文本文件 5.如果你是作为一个人回应，。。。。。语料库中的 “5.\t如果您作为个人响应或 Q1.我们可以从其他地方吸取什么教训。。。。 “Q1.\t我们可以从其他地方学到什么在语料库中，选项卡似乎正在被翻译成\t 有没有办法解决这个问题谢谢 # set pathway to text files folder<-"C:\\xxxxxx\\Text files" folder # li

我正在阅读一个文本文件和下面的代码。它读起来很好，但在整个语料库中随机放置了一个\t

示例： 原始文本文件 5.如果你是作为一个人回应，。。。。。语料库中的 “5.\t如果您作为个人响应

或 Q1.我们可以从其他地方吸取什么教训。。。。 “Q1.\t我们可以从其他地方学到什么

在语料库中，选项卡似乎正在被翻译成\t

有没有办法解决这个问题

谢谢

# set pathway to text files
folder<-"C:\\xxxxxx\\Text files"
folder
# lists all files in pathway 
list.files(path=folder)
# filters text files only
list.files(path=folder, pattern="*.txt")

# set vector
filelist<-list.files(path=folder, pattern="*.txt")

# assign pathways to files
paste(folder, "\\", filelist)
# removes separations in pathways by setting as empty
filelist<-paste(folder, "\\", filelist, sep="")
filelist

# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")

#设置文本文件路径
foldergsub（）
是一个很好的函数，它可以用不同的字符串替换模式的所有实例。对于您的情况，这将有助于：
# apply a function to read in multiple txt files - warnings are OK
a<-lapply(filelist, FUN=readLines)
# apply a function to collaspe into a single element
corpus<-lapply(a, FUN=paste, collaspe=" ")
# replace all '\t' with '   '
corpus<-gsub(pattern = '\\\t', replacement = '', corpus)

#应用函数读取多个txt文件-警告正常
真是太好了！制表符在您的原始文件中--您就是看不到它们，因为制表符是不可打印的字符。它们不是被“插入”或“翻译”——它们是被转义的：\t是制表符字符的转义序列。谢谢赫克托，让我明白了。聪明的托马斯，这很管用。谢谢你的帮助。托马斯，我不得不巧妙地把它改成语料库