Web crawler Bingbot导致404错误_Web Crawler_Bing_Bingbot

Web crawler Bingbot导致404错误

web-crawler

Web crawler Bingbot导致404错误,web-crawler,bing,bingbot,Web Crawler,Bing,Bingbot,我们最近看到大量的404错误是由Bing网络爬虫程序创建的。我已经验证了IP实际上是一台Bing机器，但不知道他们为什么要尝试URL。我不想用robots.txt文件告诉他们根本不要抓取我的站点，但同时我不想让他们继续请求不存在的页面。有没有办法告诉Bing从哪里获得特定的URL？我尝试使用[link:www.mywebsite.com/pagename/]搜索谷歌，但没有发现任何让我相信机器人正在做它不应该做的事情，而不是我的网站有一个错误的URL。他们要求什么URL？您不必特别说明，但请描述

我们最近看到大量的404错误是由Bing网络爬虫程序创建的。我已经验证了IP实际上是一台Bing机器，但不知道他们为什么要尝试URL。我不想用robots.txt文件告诉他们根本不要抓取我的站点，但同时我不想让他们继续请求不存在的页面。有没有办法告诉Bing从哪里获得特定的URL？我尝试使用

[link:www.mywebsite.com/pagename/]

搜索谷歌，但没有发现任何让我相信机器人正在做它不应该做的事情，而不是我的网站有一个错误的URL。

他们要求什么URL？您不必特别说明，但请描述其中是否有任何“有意义”的内容：例如，是否有可能在某一点上是一个有效的URL？该网站是由数据库条目驱动的，因此有一些链接，如www.mysite.com/item/57，但他们所点击的URL只是www.mystie.com/57。我试图找到ID所在的任何地方，但没有任何运气。而且，这些都不是有效的URL。谢谢最坏的情况：可能是你的网站以某种方式触发了一个模糊的微软bug。如果其他爬虫没有拾取这些链接，那么这似乎不是错误的反向链接问题。我可以确认这是在我工作的站点上发生的，并且只有bingbot这样做。我们有类似的URL模式，比如

baseurl/id/name-1

，

baseurl/id/name-2

，但是它们不断地用无效请求来攻击我们，比如

baseurl/id/1

，

baseurl/id/2

（这些请求从来都是无效的）-我们现在的解决方案是永久地将这些请求重定向到

baseurl/id

，在我们的例子中，这是一个有效的URL，而不是抛出一个404。