Google search api 下载Google web历史记录的脚本_Google Search Api

Google search api 下载Google web历史记录的脚本

Google search api 下载Google web历史记录的脚本,google-search-api,Google Search Api,如何编写脚本来下载自己的Google web历史我知道提要：https://www.google.com/history/lookup?month=1&day=9&yr=2011&output=rss 但是，如果不是通过浏览器，而是通过编程方式调用，它们就会失败。也许在发出获取提要的请求之前，脚本应该添加一个著名浏览器的用户代理HTTP头，以便谷歌确定请求来自该浏览器。我写了一篇关于如何使用我编写的脚本的博客文章它可以直接在客户端的web浏览器中工作（即，没有数据传输到第三方），您可以

如何编写脚本来下载自己的Google web历史

我知道

提要：https://www.google.com/history/lookup?month=1&day=9&yr=2011&output=rss

但是，如果不是通过浏览器，而是通过编程方式调用，它们就会失败。

也许在发出获取提要的请求之前，脚本应该添加一个著名浏览器的

用户代理

HTTP头，以便谷歌确定请求来自该浏览器。

我写了一篇关于如何使用我编写的脚本的博客文章

它可以直接在客户端的web浏览器中工作（即，没有数据传输到第三方），您可以将其下载到CSV文件中。您可以在此处查看源代码：

我的博客文章有一个书签，您可以使用它轻松启动脚本。它通过访问同一个提要来工作，但执行一次读取整个历史记录1000条记录的迭代，将其转换为CSV字符串，并使数据只需按一下按钮即可下载

我根据自己的历史运行它，并成功下载了超过130K条记录，当导出到CSV时，这些记录的大小约为30MB

编辑：使用我的脚本的FOK数量似乎遇到了问题，可能是因为他们的历史数据中存在一些异常。不幸的是，由于脚本在浏览器中执行所有操作，因此当它遇到破坏它的历史记录时，我无法调试它。如果你是一名JavaScript开发人员，使用我的脚本，你的历史记录似乎导致它崩溃；请随时帮助我修复并向我发送任何代码更新。

我尝试了GeekLad的系统，不幸的是发生了两个突破性的更改#1 URL已更改（我修改并托管了自己的副本，导致#2 type=rss参数不再工作）

我只需要时间戳…所以开始了我最近写的最好/最差的黑客攻击

步骤1——使用chrome禁用所有安全协议

第2步-

使用contentscript.js和manifest.json，制作一个chrome扩展，将ransack.js本地托管到您想要的任何服务（PHP、Ruby、Python等）。在开发人员模式下安装contentscript扩展（解包）后转到。它将自动将ransack.js+jQuery注入dom，获取数据，然后转到下一个“稍后”链接

每隔60秒，谷歌就会强迫你随机重新登录，所以这不是一个开始就离开的过程，但它确实有效。如果他们增加了混淆的赌注，你可以总是求助于链接Ajax调用，并将页面发送回后端进行后处理。在全速运行时，我讨厌的脚本每秒收集1页数据

出于道德考虑，我不会帮助任何人修改这个脚本来获取搜索词和结果，因为这个过程没有得到谷歌的批准（尽管显然没有被阻止），并且只推荐给有足够动机的个人，让它为他们工作。据我估计，我花了3-4个小时来获取所有9年的数据（90K条记录）@1页每900毫秒或更快

在这个过程中，不要浏览网页的其他部分，因为Chrome运行时没有任何保护措施，大多数保护措施的存在都是有原因的。

人们可以直接从谷歌下载她的搜索日志（以防使用脚本下载不是主要目的）

步骤：

1）登录并转到

2）就在您的个人资料图片徽标下方的右侧，您可以找到一个设置图标。请参阅第二个名为“下载”的选项。单击该选项

3）然后单击“创建存档”，Google将在几分钟内将日志发送给您。

Mozilla 4.0的值应如下所示

Mozilla/5.0（Windows；I；Windows NT 5.1；ru；rv:1.9.2.13）Gecko/20100101 Firefox/4.0

必须使用id/密码进行身份验证。如何通过脚本进行身份验证？您可以使用浏览器手动登录。谷歌会将您的身份验证信息存储在cookie中，以记住您的登录。您应该在脚本中的请求标题中查找并包含此cookie信息。GeekLad的site已经变成404了。有人有其他的解决方案吗？