R在web抓取期间，来自XML包的readHTMLTable的结果不一致_Xml_R_Parsing_Web Scraping_Web Crawler

R在web抓取期间，来自XML包的readHTMLTable的结果不一致

xml r parsing web-scraping web-crawler

R在web抓取期间，来自XML包的readHTMLTable的结果不一致,xml,r,parsing,web-scraping,web-crawler,Xml,R,Parsing,Web Scraping,Web Crawler,我有一个让我发疯的问题我试图读取目录结构，但它提供了不一致的结果下面是一些代码： library(XML) output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/") output 库（XML）输出因此，如果您的唯一目标是获得可复制的结果，那么可以使用readHTMLTable的修改版本来缓存其输出。在脚本的顶部，定义图书馆（备忘录）； my.readHTMLTable运行多次后，我可以复

我有一个让我发疯的问题

我试图读取目录结构，但它提供了不一致的结果

下面是一些代码：

library(XML)

output <- readHTMLTable("http://www.sec.gov/Archives/edgar/data/876603/")
output

库（XML）
输出
因此，如果您的唯一目标是获得可复制的结果，那么可以使用readHTMLTable的修改版本来缓存其输出。在脚本的顶部，定义
图书馆（备忘录）；
my.readHTMLTable运行多次后，我可以复制您的问题<代码>表格（复制（100，如.character（可读取的HTMLTable）（）http://www.sec.gov/Archives/edgar/data/876603/“”[[1]][3,3]）
给出了大约50/50。最好的猜测是网站/服务器使用的镜像系统的数据不同步。我想可能是这样的，但我从未在浏览器中遇到过。我这边有什么办法可以让结果一致吗？嗯，不确定。您能解释一下为什么要多次访问数据吗？多久一次？实际上，我不想多次访问它。我只是检查代码，以确保结果是正确的，并且遇到了问题。理想情况下，我只需要做一次。另外，我认为你的推理是正确的，因为SEC有一个FTP镜像，我在那里也得到了同样的效果。因此，如果你的唯一目标是获得可复制的结果，你可以使用一个修改版本的readHTMLTable
缓存其输出。在脚本顶部，定义库（备忘录）；my.readHTMLTable
                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 02-Feb-2013 16:34    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

                               Name     Last modified Size             Description
1                              <NA>              <NA> <NA>                    <NA>
2                  Parent Directory                 Â    -                       Â
3                               00/ 09-Feb-2013 16:31    -                       Â
4          0000876603-00-000005.txt 15-Feb-2000 15:36 1.0M Document: Text Document

library(memoise); 
my.readHTMLTable <- memoise(readHTMLTable)