我怎样才能从每个“文件”中删除所有内容;选择权;一个「;选择";带R的HTML字段?
我正在尝试使用我怎样才能从每个“文件”中删除所有内容;选择权;一个「;选择";带R的HTML字段?,html,r,web-scraping,rvest,selectnodes,Html,R,Web Scraping,Rvest,Selectnodes,我正在尝试使用rvest包来抓取网站 此链接将用作示例: 目标是从所有年份(选择id=“ctl29”lstYear”)和所有索引(选择id=“ctl29”lstYear”)中删除表格。我已经有了一个块,可以对这些表进行刮取和格式化,并将它们转换为列表(是的……它们不是html),但我不能使用follow\u link()或set\u values()浏览年份和索引的选项,并将它们全部刮取 让我们在此示例中使用一对“选项”(year=“2013”和index=“创新效率比率”): 因此,我查看了r
rvest
包来抓取网站
此链接将用作示例:
目标是从所有年份(选择id=“ctl29”lstYear”)和所有索引(选择id=“ctl29”lstYear”)中删除表格。我已经有了一个块,可以对这些表进行刮取和格式化,并将它们转换为列表(是的……它们不是html
),但我不能使用follow\u link()
或set\u values()
浏览年份和索引的选项,并将它们全部刮取
让我们在此示例中使用一对“选项”(year=“2013”和index=“创新效率比率”):
因此,我查看了rvest::set_values()
文档,发现了以下示例:
search <- html_form(read_html("http://www.google.com"))[[1]]
set_values(search, q = "My little pony")
search session set_值(session,list(ctl29$lstYear=“2013”,ctl29$lstinex=“创新效率比率”))
错误:“设置_值(会话,列表)(ctl29$lstYear=”中出现意外“=”
为什么我要修改的字段名称后面的“=”是意外的?对于这种问题,
set_values()
是最好的选择吗?R不喜欢将$
用作列表元素的名称。您需要正确地转义该值。请尝试set_values(会话,列表(`ctl29$lstwear`=“2013)”,`ctl29$LSTDINDEX`=“创新效率比”)
@rafael您是否注意到有csv文件(可能)包含data@MrFlick我尝试了你发布的内容,但输出似乎没有改变。在“我的小马”示例中,第一个“形式”是'q':
之后是设置值()
,是'q':我的小马
。根据您的建议,两个字段的第一个和最后一个“表单”输出是相同的:'ctl29$lstyer'[1/6]
和'ctl29$lstinex'[1/112]
@andrewlaverse是的,但我想知道的是如何处理我在抓取网页时的
标记。
> session<-html_form(read_html("https://www.globalinnovationindex.org/analysis-indicator"))[[1]]
> set_values(session,list(ctl29$lstYear = "2013",ctl29$lstIndex="Innovation Efficiency Ratio"))
Error: unexpected '=' in "set_values(session,list(ctl29$lstYear ="