Asp classic 我如何抓取自己的网站?

Asp classic 我如何抓取自己的网站?,asp-classic,Asp Classic,我继承了一个旧的经典ASP网站进行修改。虽然并没有预先请求,但我想删除一堆旧的“孤立”页面 出于某种原因,老开发人员决定创建文件的多个实例,而不是使用源代码管理(例如index-t.asp、index-feb09.asp、index-menutest.asp) 我想知道是否有人知道一个程序或网站,可以为我爬网自己的网站?它可能需要能够抓取公共站点,因为有很多包含文件。另外,有些URL是相对的,有些是绝对的。我最喜欢的工具是。还有W3C链接检查器:你不应该让曾经有效的URL过时。糟糕的网络开发者!

我继承了一个旧的经典ASP网站进行修改。虽然并没有预先请求,但我想删除一堆旧的“孤立”页面

出于某种原因,老开发人员决定创建文件的多个实例,而不是使用源代码管理(例如
index-t.asp、index-feb09.asp、index-menutest.asp


我想知道是否有人知道一个程序或网站,可以为我爬网自己的网站?它可能需要能够抓取公共站点,因为有很多包含文件。另外,有些URL是相对的,有些是绝对的。

我最喜欢的工具是。

还有W3C链接检查器:

你不应该让曾经有效的URL过时。糟糕的网络开发者!没有饼干

您应该考虑:

  • 将整个现有站点放入源代码管理,然后
  • 删除多余的页面,看看谁在抱怨

  • 这与垃圾收集类似,它已经被添加到源代码管理中,这是我的第一个任务。现在我正试图删除额外的页面,但是,我想确保我不删除需要的页面。你知道这个软件是否有递归功能吗?还是有限制?如果有限制,我就没有达到。我在超过10000页的网站上使用过这个。还要注意的是,与W3C的工具(就目前而言,它还不错)不同,如果允许FTP访问您的站点,该工具能够检测孤立页面。最后,与建议的其他一些技术不同,Xenu向站点发出真实请求,因此它可以很好地处理动态生成的网页。这是Winipedia页面:。需要Microsoft Windows 95/98/ME/NT/2000/XP/Vista/7/8/10,WININET.dll当我递归爬网时,该页面限制为150页。这是真的吗?在维护死链接警告时会有很多开销,当我更新浏览器收藏夹时,我希望它们是404/403,而不是200,并显示“此页面已消失”消息。