rvest中的XML_PARSE_巨大选项

rvest中的XML_PARSE_巨大选项,xml,r,web-scraping,rvest,Xml,R,Web Scraping,Rvest,我得到一个错误,说我需要在rvest中使用XML_PARSE_选项,但我不知道如何使用它。我试图做一个变通方法,从带有xml包的站点获取URL列表,但它没有获取完整的列表。我可以试着解释一下到底发生了什么,但我会粘贴我正在使用的代码,看看是否有人知道任何一种方法都可以工作 url<-"http://www.example-website.com/url-list.html" list<-read_html(url) %>% xml_nodes("dd a") url为什么要使

我得到一个错误,说我需要在rvest中使用XML_PARSE_选项,但我不知道如何使用它。我试图做一个变通方法,从带有xml包的站点获取URL列表,但它没有获取完整的列表。我可以试着解释一下到底发生了什么,但我会粘贴我正在使用的代码,看看是否有人知道任何一种方法都可以工作

url<-"http://www.example-website.com/url-list.html"
list<-read_html(url) %>% xml_nodes("dd a")

url为什么要使用
read_*html*
然后使用
*xml*\u节点
?你有没有试过分两步来判断是哪一步导致了错误?是的。我只运行了read_html,它给了我一个错误。我将xml节点放在这里是为了显示最终目标,但在实际给出错误的代码中,它并不存在。我不知道为什么,但是使用read_html,然后使用xml_节点就可以了。我已经在其他网站上成功地使用了它。
?xml2::read_html
说它将html规范化为xml,所以它可能很好,尽管不推荐使用,所以如果出现问题,您可以切换到
xml2::xml\u find_all
rvest::html\u节点。
。对于实际问题,您能否使用引发错误的URL进行编辑,那么它是可复制的?可能有一个选项可以通过
传递给助手函数,但是如果没有错误,很难进行验证。您还可以使用
as_html=TRUE
尝试
xml2::read_xml
,因为它有一个
n
参数,用于设置在传递URL时每次迭代读取的字节数。
htmlTreeParse(url, options= HUGE) %>% xmlRoot -> check
check[[2]] %>% paste %>% strsplit(split='"') -> check2
url.list<-paste(url, check2[[3]][grep(".htm", check2[[3]])], sep="")