Web crawler 如何在使用递归wget时处理格式错误的url,例如那些包含“&xA”和空格的url

Web crawler 如何在使用递归wget时处理格式错误的url,例如那些包含“&xA”和空格的url,web-crawler,wget,Web Crawler,Wget,我正在尝试使用递归wget来抓取一个中等大小的几千页的域。我在Ubuntu linux 13.10上使用以下命令: wget -r --random-wait -D example.com http://www.example.com 一些页面可以正常运行,但之后wget会尝试下载一系列URL格式不正确的页面。当我查看某些页面的源代码时,我会看到相关链接,例如: <a href="&#xA; displayPage.aspx?arg1=val

我正在尝试使用递归wget来抓取一个中等大小的几千页的域。我在Ubuntu linux 13.10上使用以下命令:

wget -r --random-wait -D example.com http://www.example.com
一些页面可以正常运行,但之后wget会尝试下载一系列URL格式不正确的页面。当我查看某些页面的源代码时,我会看到相关链接,例如:

<a href="&#xA;                    displayPage.aspx?arg1=val1&#xA;                  ">Another page</a>
而且

HTTP request sent, awaiting response... 400 Bad Request
在浏览器上,这些字符没有显示出来,当我将鼠标移到这样一个链接时,该链接读起来就像

http://www.example.com/subdirectory/displayPage.aspx?arg1=val1
因此,当我手动查看网站时,它可以完美地运行。有没有办法让递归wget在有这样链接的域中正常工作?通过谷歌搜索或直接在这里搜索,我找不到任何讨论这个问题的帖子

http://www.example.com/subdirectory/displayPage.aspx?arg1=val1