R-gsub不'；不要替换文本_R_Gsub

R-gsub不'；不要替换文本

R-gsub不'；不要替换文本,r,gsub,R,Gsub,恐怕这是我第一次尝试R和刮，所以请容忍我我试图从一个网站上刮取价格数据，但似乎无法清除只留下数字的非必要字符任何建议都得到了很好的接受 #Specifying the url for the website url <- 'https://www.immobilienscout24.de/Suche/S-4/Wohnung-Kauf/Berlin/Berlin/-/1,00-' #Reading the HTML code from the website webpage <-

恐怕这是我第一次尝试R和刮，所以请容忍我

我试图从一个网站上刮取价格数据，但似乎无法清除只留下数字的非必要字符

任何建议都得到了很好的接受

#Specifying the url for the website
url <- 'https://www.immobilienscout24.de/Suche/S-4/Wohnung-Kauf/Berlin/Berlin/-/1,00-'

#Reading the HTML code from the website
webpage <- read_html(url)

#Using CSS selectors to scrap the rankings section
price_data_html <- html_nodes(webpage,'.result-list-entry__primary-criterion:nth-child(1)')

#Converting the ranking data to text
price_data <- html_text(price_data_html)

#Data-Preprocessing: removing non-numbers 
price_data<-gsub("\n","",price_data)


price_data<-gsub(" €                                                                                                                Kaufpreis                                    ",
                 "",price_data)

price_data<-gsub("                                                        ","",price_data)

price_data<-gsub(" €Kaufpreis                                    ","",price_data)

#Reviewing the data
head(price_data)

#指定网站的url
网址
编辑：根据注释修改代码。问题可能在于
弦乐的重奏
#数据预处理：删除非数字
价格数据您是否只想从废弃文本中提取数字？您应该尝试price\u data1，它似乎根本不会改变结果，我只会得到包含“\n”的非常长的文本字符串。这很奇怪！我按原样运行了您的代码，最后对库（rvest）进行了少量修改；这是一个非常简洁的代码，但由于某些原因，我似乎无法让它工作。我一定是做错了什么，但不确定可能是什么。在尝试使用我建议的代码之前，可能应该运行rm（list=ls（））。这很有帮助，但似乎并没有完全解决问题。如果我将gsub修改为以下内容，它看起来会更好，但由于某些原因仍然无法摆脱“€Kaufpreis”。。。价格数据对我来说效果很好，我只剩下数字了。应用我的代码时，您会得到哪些错误或意外输出？编辑：我看到你的评论被编辑了，我来看看。我认为字符串的编码有问题。我修改了答案，只保留字母数字字符和结尾的点。你能试试看这对你有用吗？真有用！非常感谢你。如果你有时间，你能解释一下最后一行是做什么的吗？谢谢，这很有帮助。当然，只要我知道怎么做。。。
#Data-Preprocessing: removing non-numbers 
price_data<-gsub("\n","",price_data)
price_data<-gsub("Kaufpreis","",price_data)
price_data<-gsub(" ","",price_data)
price_data = gsub("[^[:alnum:].]", "", price_data)