使用getURL抓取https网站

使用getURL抓取https网站,r,R,我有一个很好的小软件包来收集数据,但我发现他们已经切换到SSL,我的软件包坏了。如果我从readLines切换到getURL,会得到一些方法,但是页面中包含的一些脚本丢失了。我需要喜欢用户代理还是其他什么 以下是我迄今为止尝试过的(非常基本): 库(RCurl) myurl对不起,这不是一个直接的解决方案,但它似乎不是一个用户代理问题。当您在浏览器中打开URL时,可以看到有一个重定向,该重定向在地址末尾添加了一个参数:direct\u URL=t1%3B%2Chacker%3B%2Cc0 如果使

我有一个很好的小软件包来收集数据,但我发现他们已经切换到SSL,我的软件包坏了。如果我从
readLines
切换到
getURL
,会得到一些方法,但是页面中包含的一些脚本丢失了。我需要喜欢用户代理还是其他什么

以下是我迄今为止尝试过的(非常基本):

库(RCurl)

myurl对不起,这不是一个直接的解决方案,但它似乎不是一个用户代理问题。当您在浏览器中打开URL时,可以看到有一个重定向,该重定向在地址末尾添加了一个参数:
direct\u URL=t1%3B%2Chacker%3B%2Cc0

如果使用
getURL()
下载此新URL,并使用新参数完成,则结果中会出现您提到的javascript

另一个解决方案是尝试通过Google BigQuery访问数据,如本问题所述:


您引用的数据不在“我的浏览器”显示的代码中,但在其中:\n运行您自己的实验!可以下载原始数据\n我已经使用了指向那里的原始数据,但是那里有千兆字节的数据:完整的ngram数据集。通过抓取网站,你可以简单地查询这些数据集中几个单词/短语的频率。我还没有发现在末尾加了额外的一点!大概是为了挫败像我这样的人;)无论如何,我现在可以检索数据了。现在,我要重做我的解析例程,因为它的格式与以前不同…再次感谢您的帮助。。。!
library(RCurl)
myurl <- "https://books.google.com/ngrams/graph?content=hacker&year_start=1950&year_end=2000"
getURL(myurl)
<script type="text/javascript">
 var data = [{"ngram": "hacker", "type": "NGRAM", "timeseries": [9.4930387994907051e-09,
  1.1685493106483591e-08, 1.0784501440023556e-08, 1.0108472218003532e-08,