Google search api 下载Google web历史记录的脚本

Google search api 下载Google web历史记录的脚本,google-search-api,Google Search Api,如何编写脚本来下载自己的Google web历史 我知道 提要:https://www.google.com/history/lookup?month=1&day=9&yr=2011&output=rss 但是,如果不是通过浏览器,而是通过编程方式调用,它们就会失败。也许在发出获取提要的请求之前,脚本应该添加一个著名浏览器的用户代理HTTP头,以便谷歌确定请求来自该浏览器。我写了一篇关于如何使用我编写的脚本的博客文章 它可以直接在客户端的web浏览器中工作(即,没有数据传输到第三方),您可以

如何编写脚本来下载自己的Google web历史

我知道

提要:https://www.google.com/history/lookup?month=1&day=9&yr=2011&output=rss


但是,如果不是通过浏览器,而是通过编程方式调用,它们就会失败。

也许在发出获取提要的请求之前,脚本应该添加一个著名浏览器的
用户代理
HTTP头,以便谷歌确定请求来自该浏览器。

我写了一篇关于如何使用我编写的脚本的博客文章

它可以直接在客户端的web浏览器中工作(即,没有数据传输到第三方),您可以将其下载到CSV文件中。您可以在此处查看源代码:

我的博客文章有一个书签,您可以使用它轻松启动脚本。它通过访问同一个提要来工作,但执行一次读取整个历史记录1000条记录的迭代,将其转换为CSV字符串,并使数据只需按一下按钮即可下载

我根据自己的历史运行它,并成功下载了超过130K条记录,当导出到CSV时,这些记录的大小约为30MB


编辑:使用我的脚本的FOK数量似乎遇到了问题,可能是因为他们的历史数据中存在一些异常。不幸的是,由于脚本在浏览器中执行所有操作,因此当它遇到破坏它的历史记录时,我无法调试它。如果你是一名JavaScript开发人员,使用我的脚本,你的历史记录似乎导致它崩溃;请随时帮助我修复并向我发送任何代码更新。

我尝试了GeekLad的系统,不幸的是发生了两个突破性的更改#1 URL已更改(我修改并托管了自己的副本,导致#2 type=rss参数不再工作)

我只需要时间戳…所以开始了我最近写的最好/最差的黑客攻击

步骤1——使用chrome禁用所有安全协议

第2步-

使用contentscript.js和manifest.json,制作一个chrome扩展,将ransack.js本地托管到您想要的任何服务(PHP、Ruby、Python等)。在开发人员模式下安装contentscript扩展(解包)后转到。它将自动将ransack.js+jQuery注入dom,获取数据,然后转到下一个“稍后”链接

每隔60秒,谷歌就会强迫你随机重新登录,所以这不是一个开始就离开的过程,但它确实有效。如果他们增加了混淆的赌注,你可以总是求助于链接Ajax调用,并将页面发送回后端进行后处理。在全速运行时,我讨厌的脚本每秒收集1页数据

出于道德考虑,我不会帮助任何人修改这个脚本来获取搜索词和结果,因为这个过程没有得到谷歌的批准(尽管显然没有被阻止),并且只推荐给有足够动机的个人,让它为他们工作。据我估计,我花了3-4个小时来获取所有9年的数据(90K条记录)@1页每900毫秒或更快


在这个过程中,不要浏览网页的其他部分,因为Chrome运行时没有任何保护措施,大多数保护措施的存在都是有原因的。

人们可以直接从谷歌下载她的搜索日志(以防使用脚本下载不是主要目的)

步骤:

1) 登录并转到

2) 就在您的个人资料图片徽标下方的右侧,您可以找到一个设置图标。请参阅第二个名为“下载”的选项。单击该选项


3) 然后单击“创建存档”,Google将在几分钟内将日志发送给您。

Mozilla 4.0的值应如下所示
Mozilla/5.0(Windows;I;Windows NT 5.1;ru;rv:1.9.2.13)Gecko/20100101 Firefox/4.0
必须使用id/密码进行身份验证。如何通过脚本进行身份验证?您可以使用浏览器手动登录。谷歌会将您的身份验证信息存储在cookie中,以记住您的登录。您应该在脚本中的请求标题中查找并包含此cookie信息。GeekLad的site已经变成404了。有人有其他的解决方案吗?