Web crawler Bingbot导致404错误

Web crawler Bingbot导致404错误,web-crawler,bing,bingbot,Web Crawler,Bing,Bingbot,我们最近看到大量的404错误是由Bing网络爬虫程序创建的。我已经验证了IP实际上是一台Bing机器,但不知道他们为什么要尝试URL。我不想用robots.txt文件告诉他们根本不要抓取我的站点,但同时我不想让他们继续请求不存在的页面。有没有办法告诉Bing从哪里获得特定的URL?我尝试使用[link:www.mywebsite.com/pagename/]搜索谷歌,但没有发现任何让我相信机器人正在做它不应该做的事情,而不是我的网站有一个错误的URL。他们要求什么URL?您不必特别说明,但请描述

我们最近看到大量的404错误是由Bing网络爬虫程序创建的。我已经验证了IP实际上是一台Bing机器,但不知道他们为什么要尝试URL。我不想用robots.txt文件告诉他们根本不要抓取我的站点,但同时我不想让他们继续请求不存在的页面。有没有办法告诉Bing从哪里获得特定的URL?我尝试使用
[link:www.mywebsite.com/pagename/]
搜索谷歌,但没有发现任何让我相信机器人正在做它不应该做的事情,而不是我的网站有一个错误的URL。

他们要求什么URL?您不必特别说明,但请描述其中是否有任何“有意义”的内容:例如,是否有可能在某一点上是一个有效的URL?该网站是由数据库条目驱动的,因此有一些链接,如www.mysite.com/item/57,但他们所点击的URL只是www.mystie.com/57。我试图找到ID所在的任何地方,但没有任何运气。而且,这些都不是有效的URL。谢谢最坏的情况:可能是你的网站以某种方式触发了一个模糊的微软bug。如果其他爬虫没有拾取这些链接,那么这似乎不是错误的反向链接问题。我可以确认这是在我工作的站点上发生的,并且只有bingbot这样做。我们有类似的URL模式,比如
baseurl/id/name-1
baseurl/id/name-2
,但是它们不断地用无效请求来攻击我们,比如
baseurl/id/1
baseurl/id/2
(这些请求从来都是无效的)-我们现在的解决方案是永久地将这些请求重定向到
baseurl/id
,在我们的例子中,这是一个有效的URL,而不是抛出一个404。