使用getURL抓取https网站_R - Fatal编程技术网

使用getURL抓取https网站

使用getURL抓取https网站,r,R,我有一个很好的小软件包来收集数据，但我发现他们已经切换到SSL，我的软件包坏了。如果我从readLines切换到getURL，会得到一些方法，但是页面中包含的一些脚本丢失了。我需要喜欢用户代理还是其他什么以下是我迄今为止尝试过的（非常基本）：库（RCurl） myurl对不起，这不是一个直接的解决方案，但它似乎不是一个用户代理问题。当您在浏览器中打开URL时，可以看到有一个重定向，该重定向在地址末尾添加了一个参数：direct\u URL=t1%3B%2Chacker%3B%2Cc0 如果使

我有一个很好的小软件包来收集数据，但我发现他们已经切换到SSL，我的软件包坏了。如果我从

readLines

切换到

getURL

，会得到一些方法，但是页面中包含的一些脚本丢失了。我需要喜欢用户代理还是其他什么

以下是我迄今为止尝试过的（非常基本）：

库（RCurl）
myurl对不起，这不是一个直接的解决方案，但它似乎不是一个用户代理问题。当您在浏览器中打开URL时，可以看到有一个重定向，该重定向在地址末尾添加了一个参数：direct\u URL=t1%3B%2Chacker%3B%2Cc0

如果使用getURL（）
下载此新URL，并使用新参数完成，则结果中会出现您提到的javascript
另一个解决方案是尝试通过Google BigQuery访问数据，如本问题所述：
您引用的数据不在“我的浏览器”显示的代码中，但在其中：\n运行您自己的实验！可以下载原始数据\n我已经使用了指向那里的原始数据，但是那里有千兆字节的数据：完整的ngram数据集。通过抓取网站，你可以简单地查询这些数据集中几个单词/短语的频率。我还没有发现在末尾加了额外的一点！大概是为了挫败像我这样的人；）无论如何，我现在可以检索数据了。现在，我要重做我的解析例程，因为它的格式与以前不同…再次感谢您的帮助。。。！
library(RCurl)
myurl <- "https://books.google.com/ngrams/graph?content=hacker&year_start=1950&year_end=2000"
getURL(myurl)

<script type="text/javascript">
 var data = [{"ngram": "hacker", "type": "NGRAM", "timeseries": [9.4930387994907051e-09,
  1.1685493106483591e-08, 1.0784501440023556e-08, 1.0108472218003532e-08,