Web scraping 无法使用rvest刮取页面项_Web Scraping_Rvest_Xml2

Web scraping 无法使用rvest刮取页面项

web-scraping

Web scraping 无法使用rvest刮取页面项,web-scraping,rvest,xml2,Web Scraping,Rvest,Xml2,我开始使用R进行网页抓取，最近一直在做一些练习。我目前正在玩当地的易趣物品，在那里我可以抓取个人物品的文本信息。然而，我尝试了不同的选择，以减少列表的浏览量。但我没有看到页面上显示的数字页面链接如下所示而页面视图编号位于图像的右下方（当前为00044视图）我能够用以下代码检索文本： pageURL <- read_html("https://www.ebay-kleinanzeigen.de/s-anzeige/zahnpflege-fuer-hunde-und-katzen-e

我开始使用R进行网页抓取，最近一直在做一些练习。我目前正在玩当地的易趣物品，在那里我可以抓取个人物品的文本信息。然而，我尝试了不同的选择，以减少列表的浏览量。但我没有看到页面上显示的数字

页面链接如下所示

而页面视图编号位于图像的右下方（当前为00044视图）

我能够用以下代码检索文本：

pageURL <- read_html("https://www.ebay-kleinanzeigen.de/s-anzeige/zahnpflege-fuer-hunde-und-katzen-extra-stark-gegen-mundgeruch/1281544930-313-3170")
input <- pageURL %>%
  html_nodes(xpath="/html/body/div[1]/div[2]/div/section[1]/section/section/article/section[1]/section/dl") %>%
  html_text() 
write.csv2(input, "example_listing.csv")

pageURL%
html_text（）
write.csv2（输入“example_listing.csv”）

非常感谢您的帮助，因为我看不到视图节点有什么不同。我尝试了xpath和完整的xpath，但没有结果。

问题是，您试图刮取的元素中的文本在您正在解析的html中不存在。您可以通过执行以下操作进行检查：

库（magrittr）
图书馆（httr）
url%内容（“文本”）
substr（第72144、72177页）
#>[1] ""

然而，如果你在Chrome或Firefox的开发者工具中查看此项，你会发现这里应该有一个数字：

当您使用web浏览器时，所请求的页面包含javascript，浏览器会自动运行javascript。在这种情况下，它会向服务器发送进一步的请求以下载额外的信息，并将其插入页面中

但是，当您使用rvest或类似工具时，会下载原始html页面，但不会运行javascript。因此，不会进行后续请求，并且无法对空字段进行刮取

在这种情况下，很容易找到下载页面浏览量的链接，因为该链接实际上位于您下载的html页面上：

url2[1]“https://www.ebay-kleinanzeigen.de/s-vac-inc-get.json?adId=1281544930&userId=50592093"
页面浏览量%GET%>%内容（“文本”）
页面视图
#>[1]“{\'numVisits\'：52，\'numVisitsStr\'：\'00052\'”

您可以看到服务器返回了一个简短的JSON，其中包含您要查找的内容。您可以手动执行javascript所做的操作，并将信息重新插入页面，如下所示：

page\u视图这正是我的问题：我的刮取尝试产生了空的csv文件。thx一吨-特别是详细信息。
input <- page %>% 
  read_html %>%
  html_nodes(xpath="//section[@class=\"l-container\"]") %>%
  html_text() %>% extract(1)