R-gsub不';不要替换文本

R-gsub不';不要替换文本,r,gsub,R,Gsub,恐怕这是我第一次尝试R和刮,所以请容忍我 我试图从一个网站上刮取价格数据,但似乎无法清除只留下数字的非必要字符 任何建议都得到了很好的接受 #Specifying the url for the website url <- 'https://www.immobilienscout24.de/Suche/S-4/Wohnung-Kauf/Berlin/Berlin/-/1,00-' #Reading the HTML code from the website webpage <-

恐怕这是我第一次尝试R和刮,所以请容忍我

我试图从一个网站上刮取价格数据,但似乎无法清除只留下数字的非必要字符

任何建议都得到了很好的接受

#Specifying the url for the website
url <- 'https://www.immobilienscout24.de/Suche/S-4/Wohnung-Kauf/Berlin/Berlin/-/1,00-'

#Reading the HTML code from the website
webpage <- read_html(url)

#Using CSS selectors to scrap the rankings section
price_data_html <- html_nodes(webpage,'.result-list-entry__primary-criterion:nth-child(1)')

#Converting the ranking data to text
price_data <- html_text(price_data_html)

#Data-Preprocessing: removing non-numbers 
price_data<-gsub("\n","",price_data)


price_data<-gsub(" €                                                                                                                Kaufpreis                                    ",
                 "",price_data)

price_data<-gsub("                                                        ","",price_data)

price_data<-gsub(" €Kaufpreis                                    ","",price_data)

#Reviewing the data
head(price_data)
#指定网站的url
网址
编辑:根据注释修改代码。问题可能在于
弦乐的重奏

#数据预处理:删除非数字

价格数据您是否只想从废弃文本中提取数字?您应该尝试
price\u data1,它似乎根本不会改变结果,我只会得到包含“\n”的非常长的文本字符串。这很奇怪!我按原样运行了您的代码,最后对库(rvest)进行了少量修改;这是一个非常简洁的代码,但由于某些原因,我似乎无法让它工作。我一定是做错了什么,但不确定可能是什么。在尝试使用我建议的代码之前,可能应该运行
rm(list=ls())
。这很有帮助,但似乎并没有完全解决问题。如果我将gsub修改为以下内容,它看起来会更好,但由于某些原因仍然无法摆脱“€Kaufpreis”。。。价格数据对我来说效果很好,我只剩下数字了。应用我的代码时,您会得到哪些错误或意外输出?编辑:我看到你的评论被编辑了,我来看看。我认为字符串的编码有问题。我修改了答案,只保留字母数字字符和结尾的点。你能试试看这对你有用吗?真有用!非常感谢你。如果你有时间,你能解释一下最后一行是做什么的吗?谢谢,这很有帮助。当然,只要我知道怎么做。。。
#Data-Preprocessing: removing non-numbers 
price_data<-gsub("\n","",price_data)
price_data<-gsub("Kaufpreis","",price_data)
price_data<-gsub(" ","",price_data)
price_data = gsub("[^[:alnum:].]", "", price_data)