Web crawler 如何在使用递归wget时处理格式错误的url，例如那些包含“&xA”和空格的url_Web Crawler_Wget

Web crawler 如何在使用递归wget时处理格式错误的url，例如那些包含“&xA”和空格的url

web-crawler

Web crawler 如何在使用递归wget时处理格式错误的url，例如那些包含“&xA”和空格的url,web-crawler,wget,Web Crawler,Wget,我正在尝试使用递归wget来抓取一个中等大小的几千页的域。我在Ubuntu linux 13.10上使用以下命令： wget -r --random-wait -D example.com http://www.example.com 一些页面可以正常运行，但之后wget会尝试下载一系列URL格式不正确的页面。当我查看某些页面的源代码时，我会看到相关链接，例如： <a href="
 displayPage.aspx?arg1=val

我正在尝试使用递归wget来抓取一个中等大小的几千页的域。我在Ubuntu linux 13.10上使用以下命令：

wget -r --random-wait -D example.com http://www.example.com

一些页面可以正常运行，但之后wget会尝试下载一系列URL格式不正确的页面。当我查看某些页面的源代码时，我会看到相关链接，例如：

<a href="&#xA;                    displayPage.aspx?arg1=val1&#xA;                  ">Another page</a>

而且

HTTP request sent, awaiting response... 400 Bad Request

在浏览器上，这些字符没有显示出来，当我将鼠标移到这样一个链接时，该链接读起来就像

http://www.example.com/subdirectory/displayPage.aspx?arg1=val1

因此，当我手动查看网站时，它可以完美地运行。有没有办法让递归wget在有这样链接的域中正常工作？通过谷歌搜索或直接在这里搜索，我找不到任何讨论这个问题的帖子

http://www.example.com/subdirectory/displayPage.aspx?arg1=val1