在R中删除网站链接

在R中删除网站链接,r,rvest,rselenium,R,Rvest,Rselenium,在R中刮取链接时,可以使用rvest或RSelenium,通过定义HTML代码的起始部分,例如给定节点中的a href,就可以做到这一点。如果我面对以下两个链接怎么办: 正如你们可能看到的,它们只是在最后一部分有所不同。您知道如何获取(定义)仅包含促销/不包含促销的链接吗?因此,让我们将链接定义为包含html字符串的对象,例如 links <- html_children(read_html("https://www.otodom.pl/sprzedaz/mieszkanie/"))

在R中刮取链接时,可以使用rvest或RSelenium,通过定义HTML代码的起始部分,例如给定节点中的a href,就可以做到这一点。如果我面对以下两个链接怎么办:


正如你们可能看到的,它们只是在最后一部分有所不同。您知道如何获取(定义)仅包含促销/不包含促销的链接吗?

因此,让我们将
链接定义为包含html字符串的对象,例如

 links <- html_children(read_html("https://www.otodom.pl/sprzedaz/mieszkanie/"))

因此,让我们将
链接定义为包含html字符串的对象,例如

 links <- html_children(read_html("https://www.otodom.pl/sprzedaz/mieszkanie/"))

使用
xpath
XML
库: 假设您正在寻找无促销链接:

library(XML)
library(httr)
response <- GET(yourLink)
parsedoc <- htmlParse(response)
xpathSApply(parsedoc, "//a[@data-featured-tracking='listing_no_promo']", xmlGetAttr, "href")

使用
xpath
XML
库: 假设您正在寻找无促销链接:

library(XML)
library(httr)
response <- GET(yourLink)
parsedoc <- htmlParse(response)
xpathSApply(parsedoc, "//a[@data-featured-tracking='listing_no_promo']", xmlGetAttr, "href")

试试SelectorGadget:不幸的是,它没有帮助你正在废弃的网站是什么?用财产广告来修饰网站,这里是示例链接:试试SelectorGadget:不幸的是,它没有帮助你正在废弃的网站是什么?用财产广告来修饰网站,下面是示例链接:任何关于如何通过触摸按钮从这样的代码片段中提取链接的想法“:“photo”-->结构似乎是相同的,但是上面提出的解决方案似乎不起作用:任何关于如何通过触摸按钮从这样的代码片段中提取链接的想法“:“photo”-->结构似乎是相同的,但是,上述建议的解决方案似乎不起作用:
xpathSApply(parsedoc, "//a[contains(@data-featured-tracking, 'no_promo')]", xmlGetAttr, "href")