Web crawler Linux抓取站点地图并检查页面本身+图像+404的内部链接

Web crawler Linux抓取站点地图并检查页面本身+图像+404的内部链接,web-crawler,http-status-code-404,scrapy-spider,Web Crawler,Http Status Code 404,Scrapy Spider,我知道使用Xenu或其他工具爬行的几种方法。但必须有更好或更聪明的方法来做到这一点 我会的 喜欢根据网站地图抓取我们的网站吗 查证 a页面本身是404吗? b页面本身没有参数的内部链接404? c所有图像:它们是否存在? 可以编写PHP脚本或其他脚本。但是有没有现成的工具、脚本或者Curl,我们可以用来做这件事呢 谢谢 是一个主要用Java实现的开源web爬虫程序。它处理站点地图,所以您可以使用它来爬网您的站点并检查404错误 你可以使用Crowlet完全公开:我是维护者,负责检查你网站地图中U

我知道使用Xenu或其他工具爬行的几种方法。但必须有更好或更聪明的方法来做到这一点

我会的

喜欢根据网站地图抓取我们的网站吗 查证 a页面本身是404吗? b页面本身没有参数的内部链接404? c所有图像:它们是否存在? 可以编写PHP脚本或其他脚本。但是有没有现成的工具、脚本或者Curl,我们可以用来做这件事呢


谢谢

是一个主要用Java实现的开源web爬虫程序。它处理站点地图,所以您可以使用它来爬网您的站点并检查404错误

你可以使用Crowlet完全公开:我是维护者,负责检查你网站地图中URL的返回统计数据和响应时间。它也不支持内部链接和图像

它基本上是一个带有Docker的单行程序,可以根据遇到的问题返回特定的退出代码,或者解析为JSON logstash

项目位于此处:

以及查找非200的示例:

# Return with code `150` if any page has a status != 200
docker run -it --rm aleravat/crowlet --crawl-hyperlinks --crawl-images --non-200-error 150 https://foo.bar/sitemap.xml

阿帕奇。我们运行nginx。