在R中删除tbody类对象

在R中删除tbody类对象,r,web-scraping,dplyr,rvest,rselenium,R,Web Scraping,Dplyr,Rvest,Rselenium,我对使用R进行网页抓取是完全陌生的,我想抓取以下作为tbody的表格图像。如果我运行以下代码,我只看到标题,没有捷克语的数据网站 我应该得到的时间,价格,数量和数量在捷克克朗为下订单那里 library(rvest) library(dplyr) PSE_Page <- "https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data" Page <- read_html(PSE_Page) Ou

我对使用R进行网页抓取是完全陌生的,我想抓取以下作为tbody的表格图像。如果我运行以下代码,我只看到标题,没有捷克语的数据网站

我应该得到的时间,价格,数量和数量在捷克克朗为下订单那里

library(rvest)
library(dplyr)

PSE_Page <- "https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data" 
Page <- read_html(PSE_Page)

Our_table <- Page %>% 
  rvest::html_nodes('body') %>% 
  xml2::xml_find_all("//div[contains(@class, 'stock-table large-table small-text page-block-negative-margin table-container js-swipe-icon')]") %>% 
  rvest::html_text()

Our_table
输出: \nČas\n塞纳\n塞尔科夫ýobjem\n塞尔科夫ýobjem\n**

有人能帮忙吗?非常感谢


您所指的表不是静态表。它是动态的,因为您可以使用它进行提取,例如对表进行排序。所以你不能用rvest获取信息。我真的不是动态web抓取方面的专家,但是这个代码片段提取了数据。我通过RSelenium包使用web浏览器,该包可以从R中控制以接收该表的动态内容。不过,可能有更好的解决方案来完成这项工作

library(RSelenium)
library(dplyr)

rD <- rsDriver(browser = "firefox", port = 8787L)
remDr <- rD$client
remDr$navigate("https://www.pse.cz/detail/CZ0003519753?tab=detail-trading-data")
page <- XML::htmlParse(remDr$getPageSource()[[1]])

remDr$close()

header <- XML::xpathSApply(page, "/html/body/div[8]/div[2]/div/div[2]/div[3]/div/div/table/thead", XML::xmlValue)
table <- XML::xpathSApply(page, "/html/body/div[8]/div[2]/div/div[2]/div[3]/div/div/table/tbody", XML::xmlValue)

header <- read.table(text=header, sep = "\n", strip.white = T) %>% unlist %>% as.character()
body <- read.table(text=table, sep = "\n", strip.white = T) 
header[3] <- "Total Turnover pcs"
header[4] <- "Total Turnover CZK"

data.frame(lapply(split(body$V1, paste(header)), as.character))

#     Price     Time Total.Turnover.CZK Total.Turnover.pcs
# 1 95,00 % 12:00:25     CZK 780,333.33        800,000 pcs
# 2 95,00 % 12:00:08     CZK 292,625.00        300,000 pcs
# 3 95,00 % 12:00:08     CZK 195,083.33        200,000 pcs



您好@satesrah,感谢您的建议,问题是,这完全遗漏了带有时间戳的表,我无法通过此解决方案检索它:我指的是带有12:00:13,95%500000 ks,487 638,89 Kč的表。。。。也许是表4无法通过解决方案加载?@Michael对不起,我不清楚,你指的是哪一个表。这使它变得有点复杂,但我更新了我的答案。最近,它说我没有java开发工具包。你是不是碰巧遇到了这个问题@satesrah?@Michael你可以在谷歌上搜索如何在macOS上安装JDK。你想提取哪个表还不清楚。你可以编辑你的文章,包括网站的截图,并突出显示你感兴趣的部分吗?当我去的时候,我在任何地方都看不到这个表格。你能澄清一下吗?更一般地说:如果你写了一条评论并编辑了你的帖子,那么ping留下原始评论的人通常是有帮助的。如果你在@MauritsEvers的评论中ping我,我会得到通知;这使得及时沟通变得容易多了。@s好的,谢谢。仍然不清楚你指的是哪张表。如果我去你提供的网站,我看不到任何类似于你展示的东西。我遗漏了什么吗?@MauritsEvers如果你去底部,它就是这一页左边的底部表格: