在Linux上，如何检查大型项目中的html链接？_Html_Linux_Hyperlink

在Linux上，如何检查大型项目中的html链接？

html linux hyperlink

在Linux上，如何检查大型项目中的html链接？,html,linux,hyperlink,Html,Linux,Hyperlink,我有>1000.html文件的目录，我想检查所有这些文件是否有坏链接，最好使用控制台。您可以为此类任务推荐任何工具吗？您可以使用文本浏览器从html文件中提取链接。围绕这一点编写Bash脚本应该不难。我会使用（一个W3C项目）试试命令行工具，或者，如果您熟悉Perl，试试同一作者编写的模块您可以使用wget，例如 wget -r --spider -o output.log http://somedomain.com 在output.log文件的底部，它将指示wget是否找到断开的链接。您

我有>1000.html文件的目录，我想检查所有这些文件是否有坏链接，最好使用控制台。您可以为此类任务推荐任何工具吗？

您可以使用文本浏览器从html文件中提取链接。围绕这一点编写Bash脚本应该不难。

我会使用（一个W3C项目）

试试命令行工具，或者，如果您熟悉Perl，试试同一作者编写的模块

您可以使用

wget

，例如

wget -r --spider  -o output.log http://somedomain.com

在output.log文件的底部，它将指示

wget

是否找到断开的链接。您可以使用

awk/grep

解析，Lynx可以做到这一点，但它并不真正支持它。wget更适合此用途。如何让wget在页面中输出链接列表？只要小心设置用户代理并接受标题（以避免来自bot检测器的虚假错误代码），这应该可以工作。看起来还可以，但它绝对不是为这么大的项目设计的——它没有任何方法只列出断开的链接，而且我的项目的输出非常大。还请注意，我在该答案上留下的一条评论提供了指向wget for Windows的链接。