在Linux上,如何检查大型项目中的html链接?

在Linux上,如何检查大型项目中的html链接?,html,linux,hyperlink,Html,Linux,Hyperlink,我有>1000.html文件的目录,我想检查所有这些文件是否有坏链接,最好使用控制台。您可以为此类任务推荐任何工具吗?您可以使用文本浏览器从html文件中提取链接。围绕这一点编写Bash脚本应该不难。我会使用(一个W3C项目)试试命令行工具,或者,如果您熟悉Perl,试试同一作者编写的模块 您可以使用wget,例如 wget -r --spider -o output.log http://somedomain.com 在output.log文件的底部,它将指示wget是否找到断开的链接。您

我有>1000.html文件的目录,我想检查所有这些文件是否有坏链接,最好使用控制台。您可以为此类任务推荐任何工具吗?

您可以使用文本浏览器从html文件中提取链接。围绕这一点编写Bash脚本应该不难。

我会使用(一个W3C项目)

试试命令行工具,或者,如果您熟悉Perl,试试同一作者编写的模块

您可以使用
wget
,例如

wget -r --spider  -o output.log http://somedomain.com

在output.log文件的底部,它将指示
wget
是否找到断开的链接。您可以使用
awk/grep

解析,Lynx可以做到这一点,但它并不真正支持它。wget更适合此用途。如何让wget在页面中输出链接列表?只要小心设置用户代理并接受标题(以避免来自bot检测器的虚假错误代码),这应该可以工作。看起来还可以,但它绝对不是为这么大的项目设计的——它没有任何方法只列出断开的链接,而且我的项目的输出非常大。还请注意,我在该答案上留下的一条评论提供了指向wget for Windows的链接。