R在web抓取期间,来自XML包的readHTMLTable的结果不一致

R在web抓取期间,来自XML包的readHTMLTable的结果不一致,xml,r,parsing,web-scraping,web-crawler,Xml,R,Parsing,Web Scraping,Web Crawler,我有一个让我发疯的问题 我试图读取目录结构,但它提供了不一致的结果 下面是一些代码: library(XML) output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/") output 库(XML) 输出 因此,如果您的唯一目标是获得可复制的结果,那么可以使用readHTMLTable的修改版本来缓存其输出。在脚本的顶部,定义 图书馆(备忘录); my.readHTMLTable运行多次后,我可以复

我有一个让我发疯的问题

我试图读取目录结构,但它提供了不一致的结果

下面是一些代码:

library(XML)

output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output
库(XML)
输出

因此,如果您的唯一目标是获得可复制的结果,那么可以使用readHTMLTable的修改版本来缓存其输出。在脚本的顶部,定义

图书馆(备忘录);

my.readHTMLTable运行多次后,我可以复制您的问题<代码>表格(复制(100,如.character(可读取的HTMLTable)()http://www.sec.gov/Archives/edgar/data/876603/“”[[1]][3,3])
给出了大约50/50。最好的猜测是网站/服务器使用的镜像系统的数据不同步。我想可能是这样的,但我从未在浏览器中遇到过。我这边有什么办法可以让结果一致吗?嗯,不确定。您能解释一下为什么要多次访问数据吗?多久一次?实际上,我不想多次访问它。我只是检查代码,以确保结果是正确的,并且遇到了问题。理想情况下,我只需要做一次。另外,我认为你的推理是正确的,因为SEC有一个FTP镜像,我在那里也得到了同样的效果。因此,如果你的唯一目标是获得可复制的结果,你可以使用一个修改版本的
readHTMLTable
缓存其输出。在脚本顶部,定义
库(备忘录);my.readHTMLTable
                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 02-Feb-2013 16:34    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 09-Feb-2013 16:31    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document
library(memoise); 
my.readHTMLTable <- memoise(readHTMLTable)