Web crawler 如何对我的站点进行爬网以检测404/500错误?

Web crawler 如何对我的站点进行爬网以检测404/500错误?,web-crawler,crawler4j,Web Crawler,Crawler4j,是否有任何快速(可能是多线程)的方法来抓取我的站点(单击所有本地链接)以查找404/500错误(即确保200个响应) 我还想能够设置为只点击到每种类型的链接1。所以如果我有1000个分类页面,它只会点击一个 这是一个好的选择吗 我想要非常容易设置的东西,我更喜欢PHP而不是Java(尽管如果Java速度明显更快,那也没问题)。您可以通过任意数量的开源python项目轻松实现这一点: 机械化似乎很受欢迎 美味的汤和汤 您可以使用这些方法之一对站点进行爬网,并检查服务器响应,这应该是非常直接的 但是

是否有任何快速(可能是多线程)的方法来抓取我的站点(单击所有本地链接)以查找404/500错误(即确保200个响应)

我还想能够设置为只点击到每种类型的链接1。所以如果我有1000个分类页面,它只会点击一个

这是一个好的选择吗


我想要非常容易设置的东西,我更喜欢PHP而不是Java(尽管如果Java速度明显更快,那也没问题)。

您可以通过任意数量的开源python项目轻松实现这一点:

  • 机械化似乎很受欢迎
  • 美味的汤和汤
  • 您可以使用这些方法之一对站点进行爬网,并检查服务器响应,这应该是非常直接的

    但是,如果您有一个站点地图(或包含所有URL的任何类型的列表),您可以尝试使用cURL或urllib打开每个站点地图,无需爬网即可获得响应。

    定义“快速”?你的网站有多大?cURL将是一个良好的开端:


    除非你有一个非常庞大的站点,并且需要在几秒钟的时间尺度上对其进行测试,否则只需将URL枚举到一个列表中,然后逐一尝试

    您可以使用旧而稳定的Xenu工具来抓取您的站点


    您可以将他配置为使用100个线程,并按状态代码[500\404\200\403]对结果进行排序。

    这个问题将更适合于:我觉得一个解决方案是在不强制HTTP请求的情况下检查目录结构,到目前为止是最佳的。这只对404个错误有帮助,但仍有500个错误。这是一个相当大的网站,我不知道所有的URL。所以我认为抓取链接(爬行)是必要的。你怎么可能不知道所有的URL?您不能读取自己的目录?这很酷,但理想情况下,我可以在构建过程中自动运行爬网。谢谢Hay Ryan如果你为xenu付费,你可以得到一个有命令行参数的版本,并自动运行。更多信息请访问:我还没有尝试过这个,但我公司的首席开发人员也独立推荐了这个,所以我将把你的作为答案。