R 如果文本中有损坏的字符,是否只保留字母字符和数字?

R 如果文本中有损坏的字符,是否只保留字母字符和数字?,r,regex,R,Regex,我有一个文件与一些损坏的字符,我想清理它,只保留字母字符和数字。数据如下所示: data <- c("120 RED[¹", "121 ªÚêÝk College", "[²¯x¬ Street", "Sky ªÚêÝk") data这将用“”替换除字母、数字和空格以外的所有字符: 我担心它仍然会留下随机的k、x和k,因为它们是被损坏的字母包围的普通字母。这会将除字母、数字和空格以外的所有字母替换为“”: 我担心它仍然会留下随机的k、x和k,因为这些是被损坏的字母包围的普通字母。尽管@Z

我有一个文件与一些损坏的字符,我想清理它,只保留字母字符和数字。数据如下所示:

data <- c("120 RED[¹", "121 ªÚêÝk College", "[²¯x¬ Street", "Sky ªÚêÝk")

data这将用“”替换除字母、数字和空格以外的所有字符:


我担心它仍然会留下随机的k、x和k,因为它们是被损坏的字母包围的普通字母。

这会将除字母、数字和空格以外的所有字母替换为“”:


我担心它仍然会留下随机的k、x和k,因为这些是被损坏的字母包围的普通字母。

尽管@Z有一些不需要的字符。林正是我想要的。尽管@Z有一些不需要的字符。林正是我想要的。
clean_data <- c("120 RED","121 College", "Street","Sky")
gsub("([^A-Za-z0-9 ])+", "", x = data)

[1] "120 RED"       "121 k College" "x Street"      "Sky k"