Web crawler 如何对我的站点进行爬网以检测404/500错误？_Web Crawler_Crawler4j

Web crawler 如何对我的站点进行爬网以检测404/500错误？

web-crawler

Web crawler 如何对我的站点进行爬网以检测404/500错误？,web-crawler,crawler4j,Web Crawler,Crawler4j,是否有任何快速（可能是多线程）的方法来抓取我的站点（单击所有本地链接）以查找404/500错误（即确保200个响应）我还想能够设置为只点击到每种类型的链接1。所以如果我有1000个分类页面，它只会点击一个这是一个好的选择吗我想要非常容易设置的东西，我更喜欢PHP而不是Java（尽管如果Java速度明显更快，那也没问题）。您可以通过任意数量的开源python项目轻松实现这一点：机械化似乎很受欢迎美味的汤和汤您可以使用这些方法之一对站点进行爬网，并检查服务器响应，这应该是非常直接的但是

是否有任何快速（可能是多线程）的方法来抓取我的站点（单击所有本地链接）以查找404/500错误（即确保200个响应）

我还想能够设置为只点击到每种类型的链接1。所以如果我有1000个分类页面，它只会点击一个

这是一个好的选择吗

我想要非常容易设置的东西，我更喜欢PHP而不是Java（尽管如果Java速度明显更快，那也没问题）。

您可以通过任意数量的开源python项目轻松实现这一点：

机械化似乎很受欢迎

美味的汤和汤

您可以使用这些方法之一对站点进行爬网，并检查服务器响应，这应该是非常直接的

但是，如果您有一个站点地图（或包含所有URL的任何类型的列表），您可以尝试使用cURL或urllib打开每个站点地图，无需爬网即可获得响应。

定义“快速”？你的网站有多大？cURL将是一个良好的开端：

除非你有一个非常庞大的站点，并且需要在几秒钟的时间尺度上对其进行测试，否则只需将URL枚举到一个列表中，然后逐一尝试

您可以使用旧而稳定的Xenu工具来抓取您的站点

您可以将他配置为使用100个线程，并按状态代码[500\404\200\403]对结果进行排序。

这个问题将更适合于：我觉得一个解决方案是在不强制HTTP请求的情况下检查目录结构，到目前为止是最佳的。这只对404个错误有帮助，但仍有500个错误。这是一个相当大的网站，我不知道所有的URL。所以我认为抓取链接（爬行）是必要的。你怎么可能不知道所有的URL？您不能读取自己的目录？这很酷，但理想情况下，我可以在构建过程中自动运行爬网。谢谢Hay Ryan如果你为xenu付费，你可以得到一个有命令行参数的版本，并自动运行。更多信息请访问：我还没有尝试过这个，但我公司的首席开发人员也独立推荐了这个，所以我将把你的作为答案。