谷歌用cookies爬行

谷歌用cookies爬行,cookies,web-crawler,Cookies,Web Crawler,我的网站的内容取决于请求中的cookies,当Google crawler机器人访问我的网站时,它不会索引太多内容,因为它在每个请求中都没有特定的cookies 有没有可能设置一些规则,当爬虫机器人对我的网站进行爬网时,它会使用特定的cookies?是的,谷歌爬虫在它的请求头中有“Googlebot”一词。只需检查一下,但要注意,人们也可以通过欺骗来访问您网站的内容。正如好奇的家伙在评论中所说的那样,这通常会被使用你网站的人看不起,而且可能会反对谷歌的TOS 谷歌机器人并不是故意尊重cookie

我的网站的内容取决于请求中的cookies,当Google crawler机器人访问我的网站时,它不会索引太多内容,因为它在每个请求中都没有特定的cookies


有没有可能设置一些规则,当爬虫机器人对我的网站进行爬网时,它会使用特定的cookies?

是的,谷歌爬虫在它的请求头中有“Googlebot”一词。只需检查一下,但要注意,人们也可以通过欺骗来访问您网站的内容。正如好奇的家伙在评论中所说的那样,这通常会被使用你网站的人看不起,而且可能会反对谷歌的TOS

谷歌机器人并不是故意尊重cookies的——它必须“看到”别人在你的网站上看到的东西,如果你愿意的话,这是“最小的公分母”;否则,对于未知数量的搜索者来说,搜索结果将毫无意义


请在谷歌上搜索“Googlebot cookies”,以获得有关搜索引擎的讨论和文档,了解它们是如何工作的,以及它们为什么工作以及它们是如何工作的;您的问题的一个解决方案可能是实施“首次访问/免费查看”规则。

好的,如果我需要在googlebot请求中放入cookie,例如:locationId=2(它是cookie),我该如何做?我想OP希望将cookie注入到每个googlebot请求中。。。这是不可能的。更可能的情况是,在您使用绕过GoogleBot身份验证的身份验证代码之前,您会有一些代码。如果你的模板(或其他任何模板)需要用户身份验证数据,那么你可以为谷歌机器人创建一个假用户帐户,并将cookies添加到它的头请求中(这是可能的),但有点黑客行为。“请注意,人们也可以通过欺骗来访问你的网站内容。”请注意,如果用户将其用户代理更改为GoogleBot后可以访问您网站的内容,则您违反了Google的条件,并且如果Google注意到您可以从Google的索引中删除。