在R中删除文本文件中的特殊字符
我在R中使用一个文本文件,并使用readLine函数和regexs从中提取单词。该文件在单词周围使用特殊字符(例如#在一个单词之前和之后以粗体显示,或在一个单词之前和之后以斜体显示)来表示特殊含义,这会弄乱我的正则表达式 到目前为止,这是我的r代码,它删除了所有空行,然后将我的文本文件合并到一个向量中:在R中删除文本文件中的特殊字符,r,regex,text-files,special-characters,gsub,R,Regex,Text Files,Special Characters,Gsub,我在R中使用一个文本文件,并使用readLine函数和regexs从中提取单词。该文件在单词周围使用特殊字符(例如#在一个单词之前和之后以粗体显示,或在一个单词之前和之后以斜体显示)来表示特殊含义,这会弄乱我的正则表达式 到目前为止,这是我的r代码,它删除了所有空行,然后将我的文本文件合并到一个向量中: book<-readLines("/Users/Desktop/SAMPLE .txt",encoding="UTF-8") #remove all empty lines
book<-readLines("/Users/Desktop/SAMPLE .txt",encoding="UTF-8")
#remove all empty lines
empty_lines = grepl('^\\s*$', book)
book = book[! empty_lines]
#combine book into one variable
xBook = paste(book, collapse = '')
#remove extra white spaces for a single text of the entire book
updated<-trimws(gsub("\\s+"," ",xBook))
书
gsub("[@#]([a-zA-Z]+)[@#]", "\\1", x)