R在web抓取期间,来自XML包的readHTMLTable的结果不一致
我有一个让我发疯的问题 我试图读取目录结构,但它提供了不一致的结果 下面是一些代码:R在web抓取期间,来自XML包的readHTMLTable的结果不一致,xml,r,parsing,web-scraping,web-crawler,Xml,R,Parsing,Web Scraping,Web Crawler,我有一个让我发疯的问题 我试图读取目录结构,但它提供了不一致的结果 下面是一些代码: library(XML) output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/") output 库(XML) 输出 因此,如果您的唯一目标是获得可复制的结果,那么可以使用readHTMLTable的修改版本来缓存其输出。在脚本的顶部,定义 图书馆(备忘录); my.readHTMLTable运行多次后,我可以复
library(XML)
output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output
库(XML)
输出
因此,如果您的唯一目标是获得可复制的结果,那么可以使用readHTMLTable的修改版本来缓存其输出。在脚本的顶部,定义
图书馆(备忘录);
my.readHTMLTable运行多次后,我可以复制您的问题<代码>表格(复制(100,如.character(可读取的HTMLTable)()http://www.sec.gov/Archives/edgar/data/876603/“”[[1]][3,3])
给出了大约50/50。最好的猜测是网站/服务器使用的镜像系统的数据不同步。我想可能是这样的,但我从未在浏览器中遇到过。我这边有什么办法可以让结果一致吗?嗯,不确定。您能解释一下为什么要多次访问数据吗?多久一次?实际上,我不想多次访问它。我只是检查代码,以确保结果是正确的,并且遇到了问题。理想情况下,我只需要做一次。另外,我认为你的推理是正确的,因为SEC有一个FTP镜像,我在那里也得到了同样的效果。因此,如果你的唯一目标是获得可复制的结果,你可以使用一个修改版本的readHTMLTable
缓存其输出。在脚本顶部,定义库(备忘录);my.readHTMLTable
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 02-Feb-2013 16:34 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
Name Last modified Size Description
1 <NA> <NA> <NA> <NA>
2 Parent Directory  - Â
3 00/ 09-Feb-2013 16:31 - Â
4 0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
library(memoise);
my.readHTMLTable <- memoise(readHTMLTable)