我怎样才能从每个“文件”中删除所有内容；选择权；一个「；选择"；带R的HTML字段？_Html_R_Web Scraping_Rvest_Selectnodes

我怎样才能从每个“文件”中删除所有内容；选择权；一个「；选择"；带R的HTML字段？

html r web-scraping

我怎样才能从每个“文件”中删除所有内容；选择权；一个「；选择"；带R的HTML字段？,html,r,web-scraping,rvest,selectnodes,Html,R,Web Scraping,Rvest,Selectnodes,我正在尝试使用rvest包来抓取网站此链接将用作示例：目标是从所有年份（选择id=“ctl29”lstYear”）和所有索引（选择id=“ctl29”lstYear”）中删除表格。我已经有了一个块，可以对这些表进行刮取和格式化，并将它们转换为列表（是的……它们不是html），但我不能使用follow\u link（）或set\u values（）浏览年份和索引的选项，并将它们全部刮取让我们在此示例中使用一对“选项”（year=“2013”和index=“创新效率比率”）：因此，我查看了r

我正在尝试使用

rvest

包来抓取网站

此链接将用作示例：

目标是从所有年份（选择id=“ctl29”lstYear”）和所有索引（选择id=“ctl29”lstYear”）中删除表格。我已经有了一个块，可以对这些表进行刮取和格式化，并将它们转换为列表（是的……它们不是html

），但我不能使用

follow\u link（）

或

set\u values（）

浏览年份和索引的选项，并将它们全部刮取

让我们在此示例中使用一对“选项”（year=“2013”和index=“创新效率比率”）：

因此，我查看了

rvest:：set_values（）

文档，发现了以下示例：

    search <- html_form(read_html("http://www.google.com"))[[1]]
    set_values(search, q = "My little pony")

search session set_值（session，list（ctl29$lstYear=“2013”，ctl29$lstinex=“创新效率比率”））
错误：“设置_值（会话，列表）（ctl29$lstYear=”中出现意外“=”

为什么我要修改的字段名称后面的“=”是意外的？对于这种问题，

set_values（）

是最好的选择吗？

R不喜欢将

用作列表元素的名称。您需要正确地转义该值。请尝试

set_values（会话，列表（`ctl29$lstwear`=“2013）”，`ctl29$LSTDINDEX`=“创新效率比”）

@rafael您是否注意到有csv文件（可能）包含data@MrFlick我尝试了你发布的内容，但输出似乎没有改变。在“我的小马”示例中，第一个“形式”是

'q'：

之后是

设置值（）

，是

'q'：我的小马

。根据您的建议，两个字段的第一个和最后一个“表单”输出是相同的：

'ctl29$lstyer'[1/6]

和

'ctl29$lstinex'[1/112]

@andrewlaverse是的，但我想知道的是如何处理我在抓取网页时的

标记。

    > session<-html_form(read_html("https://www.globalinnovationindex.org/analysis-indicator"))[[1]]
    > set_values(session,list(ctl29$lstYear = "2013",ctl29$lstIndex="Innovation Efficiency Ratio"))
    Error: unexpected '=' in "set_values(session,list(ctl29$lstYear ="