Regex 在R中删除标点和数字文本挖掘后如何给出两个单词之间的空间

Regex 在R中删除标点和数字文本挖掘后如何给出两个单词之间的空间,regex,r,gsub,tm,Regex,R,Gsub,Tm,我们可以看到,在下面的示例中,在删除数字3054和标点符号后-在给定字符串中“BG3054 suhas B-DC chr 23.7-22.8.13”输出将合并为bgsuhas,但我需要在这两个单词之间留一个空格作为bg suhas。在下面给定的字符串中,您可以看到相同的内容,如bdc,bbxsh。你能帮我在这些单词之间留出一个空格进行文本挖掘吗 我需要这样 bg sub dc chr rashmi作为输出矩阵 Newcol<-c("BG3054-suhas B-DC chr 23.7-22

我们可以看到,在下面的示例中,在删除数字3054和标点符号后-在给定字符串中
“BG3054 suhas B-DC chr 23.7-22.8.13”
输出将合并为
bgsuhas
,但我需要在这两个单词之间留一个空格作为
bg suhas
。在下面给定的字符串中,您可以看到相同的内容,如
bdc,bbxsh
。你能帮我在这些单词之间留出一个空格进行文本挖掘吗

我需要这样
bg sub dc chr rashmi作为输出矩阵

Newcol<-c("BG3054-suhas B-DC chr 23.7-22.8.13","BBXSH0030 Rashmi S 23.4.13to22.5.13")

text.corp <- Corpus(VectorSource(Newcol))   

text.corp <- tm_map(text.corp, tolower)

text.corp <- tm_map(text.corp, stripWhitespace)

text.corp <- tm_map(text.corp, removeNumbers)

text.corp <- tm_map(text.corp, removePunctuation)

text.corp <- tm_map(text.corp, removeWords, c("the", stopwords("english")))

dtm <- DocumentTermMatrix(text.corp)

dtm.mat <- as.matrix(dtm)

dtm.mat

OUTPUT
    Terms
Docs bbxsh bdc bgsuhas chr rashmi
   1     0   1       1   1      0
   2     1   0       0   0      1

Newcol我会使用
gsub
将任何非a-z字母替换为空格,作为预处理步骤:

Newcol <- gsub("[^a-zA-Z]+", " ", Newcol)
Newcol
# [1] "BG suhas B DC chr " "BBXSH Rashmi S to "

Newcol定义您自己的内容转换器:

替换标点符号