在R中删除文本文件中的特殊字符_R_Regex_Text Files_Special Characters_Gsub

在R中删除文本文件中的特殊字符

r regex

在R中删除文本文件中的特殊字符,r,regex,text-files,special-characters,gsub,R,Regex,Text Files,Special Characters,Gsub,我在R中使用一个文本文件，并使用readLine函数和regexs从中提取单词。该文件在单词周围使用特殊字符（例如#在一个单词之前和之后以粗体显示，或在一个单词之前和之后以斜体显示）来表示特殊含义，这会弄乱我的正则表达式到目前为止，这是我的r代码，它删除了所有空行，然后将我的文本文件合并到一个向量中： book<-readLines("/Users/Desktop/SAMPLE .txt",encoding="UTF-8") #remove all empty lines

我在R中使用一个文本文件，并使用readLine函数和regexs从中提取单词。该文件在单词周围使用特殊字符（例如#在一个单词之前和之后以粗体显示，或在一个单词之前和之后以斜体显示）来表示特殊含义，这会弄乱我的正则表达式

到目前为止，这是我的r代码，它删除了所有空行，然后将我的文本文件合并到一个向量中：

    book<-readLines("/Users/Desktop/SAMPLE .txt",encoding="UTF-8")
    #remove all empty lines
    empty_lines = grepl('^\\s*$', book)
    book = book[! empty_lines]
    #combine book into one variable
    xBook = paste(book, collapse = '')
    #remove extra white spaces for a single text of the entire book
    updated<-trimws(gsub("\\s+"," ",xBook))

书
gsub("[@#]([a-zA-Z]+)[@#]", "\\1", x)