Web crawler Linux抓取站点地图并检查页面本身+图像+404的内部链接_Web Crawler_Http Status Code 404_Scrapy Spider

Web crawler Linux抓取站点地图并检查页面本身+图像+404的内部链接

web-crawler

Web crawler Linux抓取站点地图并检查页面本身+图像+404的内部链接,web-crawler,http-status-code-404,scrapy-spider,Web Crawler,Http Status Code 404,Scrapy Spider,我知道使用Xenu或其他工具爬行的几种方法。但必须有更好或更聪明的方法来做到这一点我会的喜欢根据网站地图抓取我们的网站吗查证 a页面本身是404吗？ b页面本身没有参数的内部链接404？ c所有图像：它们是否存在？可以编写PHP脚本或其他脚本。但是有没有现成的工具、脚本或者Curl，我们可以用来做这件事呢谢谢是一个主要用Java实现的开源web爬虫程序。它处理站点地图，所以您可以使用它来爬网您的站点并检查404错误你可以使用Crowlet完全公开：我是维护者，负责检查你网站地图中U

我知道使用Xenu或其他工具爬行的几种方法。但必须有更好或更聪明的方法来做到这一点

我会的

喜欢根据网站地图抓取我们的网站吗查证 a页面本身是404吗？ b页面本身没有参数的内部链接404？ c所有图像：它们是否存在？可以编写PHP脚本或其他脚本。但是有没有现成的工具、脚本或者Curl，我们可以用来做这件事呢

谢谢

是一个主要用Java实现的开源web爬虫程序。它处理站点地图，所以您可以使用它来爬网您的站点并检查404错误

你可以使用Crowlet完全公开：我是维护者，负责检查你网站地图中URL的返回统计数据和响应时间。它也不支持内部链接和图像

它基本上是一个带有Docker的单行程序，可以根据遇到的问题返回特定的退出代码，或者解析为JSON logstash

项目位于此处：

以及查找非200的示例：

# Return with code `150` if any page has a status != 200
docker run -it --rm aleravat/crowlet --crawl-hyperlinks --crawl-images --non-200-error 150 https://foo.bar/sitemap.xml

阿帕奇。我们运行nginx。