Php 406阻止机器人爬网页面时出错

Php 406阻止机器人爬网页面时出错,php,html,error-handling,http-status-code-406,Php,Html,Error Handling,Http Status Code 406,我使用SEMrush进行搜索引擎优化。我不确定为什么我在他们的网站上抓取我的页面时收到以下错误: 由于HTTP错误406,我们无法使用SEMrushBot用户代理对此页面进行爬网。尽管如此,我们还是能够为这一页收集一些一般性的想法。请确保搜索引擎爬虫可以访问您的页面,然后开始使用我们的想法对其进行优化 是什么原因导致406错误以阻止机器人爬网页面?我相信谷歌能够抓取它,因为我在他们这方面没有任何错误 我能查什么 Robots.txt文件: User-agent: * Disallow: /cgi

我使用SEMrush进行搜索引擎优化。我不确定为什么我在他们的网站上抓取我的页面时收到以下错误:

由于HTTP错误406,我们无法使用SEMrushBot用户代理对此页面进行爬网。尽管如此,我们还是能够为这一页收集一些一般性的想法。请确保搜索引擎爬虫可以访问您的页面,然后开始使用我们的想法对其进行优化

是什么原因导致406错误以阻止机器人爬网页面?我相信谷歌能够抓取它,因为我在他们这方面没有任何错误

我能查什么

Robots.txt文件:

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/
Disallow: /admin/
Disallow: /old-site/
sitemap: https://example.com/sitemap.xml

406是一个错误,它告诉您服务器不会给您任何数据,因为您的用户代理不在接受列表中

根据请求中接收到的主动协商标头字段,目标资源没有用户代理可以接受的当前表示,服务器不愿意提供默认表示


因此,基本上解决这个问题的方法是更改您的用户代理。

我如何将它们添加到我接受的用户代理列表中?回答后,我阅读了有关SemRushBot的内容,在我看来,您无法更改它的设置,因为您无法访问设置或源代码,此外,您可能无法更改要爬网的站点上的设置。所以现在我觉得这是不可能的。对不起,让你失望了。也许有一些解决办法,或者在这一领域有更多经验的人会给你更乐观的答案。请再读一遍你的问题。如果是您的站点,请检查robots.txt文件并将其添加到问题正文中。请将robots.txt文件添加到问题中。您收到http和https的406?你使用哪台服务器?