rvest中的XML_PARSE_巨大选项_Xml_R_Web Scraping_Rvest

rvest中的XML_PARSE_巨大选项

xml r web-scraping

rvest中的XML_PARSE_巨大选项,xml,r,web-scraping,rvest,Xml,R,Web Scraping,Rvest,我得到一个错误，说我需要在rvest中使用XML_PARSE_选项，但我不知道如何使用它。我试图做一个变通方法，从带有xml包的站点获取URL列表，但它没有获取完整的列表。我可以试着解释一下到底发生了什么，但我会粘贴我正在使用的代码，看看是否有人知道任何一种方法都可以工作 url<-"http://www.example-website.com/url-list.html" list<-read_html(url) %>% xml_nodes("dd a") url为什么要使

我得到一个错误，说我需要在rvest中使用XML_PARSE_选项，但我不知道如何使用它。我试图做一个变通方法，从带有xml包的站点获取URL列表，但它没有获取完整的列表。我可以试着解释一下到底发生了什么，但我会粘贴我正在使用的代码，看看是否有人知道任何一种方法都可以工作

url<-"http://www.example-website.com/url-list.html"
list<-read_html(url) %>% xml_nodes("dd a")

url为什么要使用read_*html*
然后使用*xml*\u节点
？你有没有试过分两步来判断是哪一步导致了错误？是的。我只运行了read_html，它给了我一个错误。我将xml节点放在这里是为了显示最终目标，但在实际给出错误的代码中，它并不存在。我不知道为什么，但是使用read_html，然后使用xml_节点就可以了。我已经在其他网站上成功地使用了它。？xml2:：read_html
说它将html规范化为xml，所以它可能很好，尽管不推荐使用，所以如果出现问题，您可以切换到xml2:：xml\u find_all
或rvest:：html\u节点。
。对于实际问题，您能否使用引发错误的URL进行编辑，那么它是可复制的？可能有一个选项可以通过…
传递给助手函数，但是如果没有错误，很难进行验证。您还可以使用as_html=TRUE
尝试xml2:：read_xml
，因为它有一个n参数，用于设置在传递URL时每次迭代读取的字节数。
htmlTreeParse(url, options= HUGE) %>% xmlRoot -> check
check[[2]] %>% paste %>% strsplit(split='"') -> check2
url.list<-paste(url, check2[[3]][grep(".htm", check2[[3]])], sep="")