R 如果文本中有损坏的字符,是否只保留字母字符和数字?
我有一个文件与一些损坏的字符,我想清理它,只保留字母字符和数字。数据如下所示:R 如果文本中有损坏的字符,是否只保留字母字符和数字?,r,regex,R,Regex,我有一个文件与一些损坏的字符,我想清理它,只保留字母字符和数字。数据如下所示: data <- c("120 RED[¹", "121 ªÚêÝk College", "[²¯x¬ Street", "Sky ªÚêÝk") data这将用“”替换除字母、数字和空格以外的所有字符: 我担心它仍然会留下随机的k、x和k,因为它们是被损坏的字母包围的普通字母。这会将除字母、数字和空格以外的所有字母替换为“”: 我担心它仍然会留下随机的k、x和k,因为这些是被损坏的字母包围的普通字母。尽管@Z
data <- c("120 RED[¹", "121 ªÚêÝk College", "[²¯x¬ Street", "Sky ªÚêÝk")
data这将用“”替换除字母、数字和空格以外的所有字符:
我担心它仍然会留下随机的k、x和k,因为它们是被损坏的字母包围的普通字母。这会将除字母、数字和空格以外的所有字母替换为“”:
我担心它仍然会留下随机的k、x和k,因为这些是被损坏的字母包围的普通字母。尽管@Z有一些不需要的字符。林正是我想要的。尽管@Z有一些不需要的字符。林正是我想要的。
clean_data <- c("120 RED","121 College", "Street","Sky")
gsub("([^A-Za-z0-9 ])+", "", x = data)
[1] "120 RED" "121 k College" "x Street" "Sky k"