Html 在R中使用多个选项卡抓取网页

Html 在R中使用多个选项卡抓取网页,html,r,web-scraping,Html,R,Web Scraping,我试图从以下网页中获取R中的过期日期数据:。此页面包含多个选项卡,过期日期仅为其中一个。我使用的代码是 library(RCurl) Canola <- 'https://www.theice.com/productguide/ProductSpec.shtml?specId=251#expiry' WS <- getURL(Canola,ssl.verifypeer=FALSE) library(XML) ParsedData <- htmlParse(WS) CanolaE

我试图从以下网页中获取R中的过期日期数据:。此页面包含多个选项卡,过期日期仅为其中一个。我使用的代码是

library(RCurl)
Canola <- 'https://www.theice.com/productguide/ProductSpec.shtml?specId=251#expiry'
WS <- getURL(Canola,ssl.verifypeer=FALSE)
library(XML)
ParsedData <- htmlParse(WS)
CanolaExpDate <- readHTMLTable(ParsedData)
names(CanolaExpDate)
库(RCurl)

Canola我在该页面的源代码中搜索了“expiry”,并查看了URL是如何形成的。添加
&expiryDates
而不是
#expiry
将生成一个更易于解析的表

library(RCurl)
library(XML)
Canola <- "https://www.theice.com/productguide/ProductSpec.shtml?specId=251&expiryDates"
WS <- getURL(Canola)
x <- readHTMLTable(WS, stringsAsFactors=FALSE)
as.data.frame(lapply(x[[1]], as.Date, format="%a %b %d %X"))

#   Contract.Symbol        FTD        LTD        FND        LND        FDD        LDD Options.FTD Options.LTD
#1       2013-07-01 2013-05-16 2013-07-12 2013-06-28 2013-07-15 2013-07-02 2013-07-16        <NA>  2013-06-21
#2       2013-08-01 2013-03-25 2013-07-26 2013-07-31 2013-08-15 2013-08-01 2013-08-16        <NA>  2013-07-26
#3       2013-09-01 2013-08-27 2013-08-23 2013-08-30 2013-09-16 2013-09-03 2013-09-17        <NA>  2013-08-23
#4       2013-10-01 2013-05-27 2013-09-20 2013-09-30 2013-10-15 2013-10-01 2013-10-16        <NA>  2013-09-20
#5       2013-11-01 2013-07-15 2013-11-14 2013-10-31 2013-11-15 2013-11-01 2013-11-18        <NA>  2013-10-25
#6       2013-01-01 2013-11-15 2013-01-14 2013-12-31 2013-01-15 2013-01-02 2013-01-16        <NA>  2013-12-20
#7       2013-03-01 2013-01-17 2013-03-14 2013-02-28 2013-03-17 2013-03-03 2013-03-18        <NA>  2013-02-21
#8       2013-05-01 2013-03-15 2013-05-14 2013-04-30 2013-05-15 2013-05-01 2013-05-16        <NA>  2013-04-25
#9       2013-07-01 2013-05-15 2013-07-14 2013-06-30 2013-07-15 2013-07-02 2013-07-16        <NA>  2013-06-20
#10      2013-11-01 2013-07-16 2013-11-14 2013-10-31 2013-11-17 2013-11-03 2013-11-18        <NA>  2013-10-24
#11      2013-01-01 2013-11-15 2013-01-14 2013-12-31 2013-01-15 2013-01-02 2013-01-16        <NA>  2013-12-19
#12      2013-03-01 2013-01-15 2013-03-13 2013-02-27 2013-03-16 2013-03-02 2013-03-17        <NA>  2013-02-20
#13      2013-05-01 2013-03-15 2013-05-14 2013-04-30 2013-05-15 2013-05-01 2013-05-19        <NA>  2013-04-24
#14      2013-07-01 2013-05-15 2013-07-14 2013-06-30 2013-07-15 2013-07-02 2013-07-16        <NA>  2013-06-26
所以,我试着省略jsessionid部分,然后转到

https://theice.com/productguide/ProductSpec.shtml?expiryDates=&specId=251
看起来很有趣。我只将其重新排序为
https://www.theice.com/productguide/ProductSpec.shtml?specId=251&expiryDates


因为我觉得URL看起来更漂亮。

你能显示预期的输出吗?我想将到期日期选项卡上的所有数据都放在一个data.frame中。你想访问你的
CanolaExpDate
列表吗<代码>CanolaExpDate$tradingHours
?我不想要交易时间,我需要到期日期信息。基本上,我搜集了错误的数据。交易时间数据在“产品规格”选项卡上,我想要的数据在“到期日”选项卡上。是的,我知道您想要到期日。我不清楚哪些数据是到期日(并非所有人都有财务背景)。也就是说,你的意思是提取链接中提到的表中的所有日期吗?哪个栏目?FTD?有限公司?。。。。这就是我要求预期输出的原因。使用chrome中的开发者工具是否可以找到
&expiryDates
?你是怎么在来源中找到这个的?@GSee。它工作得很好,谢谢。@cyclondude,是的,您可以在开发人员工具中查看源代码并搜索“到期日”
https://theice.com/productguide/ProductSpec.shtml?expiryDates=&specId=251