Web scraping 一个基本的爬虫/刮板，可以提供父URL下的所有URL_Web Scraping_Web Crawler

Web scraping 一个基本的爬虫/刮板，可以提供父URL下的所有URL

web-scraping web-crawler

Web scraping 一个基本的爬虫/刮板，可以提供父URL下的所有URL,web-scraping,web-crawler,Web Scraping,Web Crawler,给定一个父URL，比如说，我想刮除这个页面上的所有URL，直到深度X 我不想转移到另一个领域，即使深度标准迫使它这样做。我不想去深度2，它不在dir.yahoo.com下一定有一些工具可以用来做这件事。试试看。试试看具体来说，您希望在您的案例中使用以下命令行选项： $ wget -r http://www.example.com/ -l X 很明显，你会取代http://www.example.com/ 用你选择的URL和你想要的深度的X 具体来说，您希望在您的案例中使用以下命令行选项：

给定一个父URL，比如说，我想刮除这个页面上的所有URL，直到深度X

我不想转移到另一个领域，即使深度标准迫使它这样做。我不想去深度2，它不在dir.yahoo.com下

一定有一些工具可以用来做这件事。

试试看。

试试看

具体来说，您希望在您的案例中使用以下命令行选项：

$ wget -r http://www.example.com/ -l X

很明显，你会取代http://www.example.com/ 用你选择的URL和你想要的深度的X

具体来说，您希望在您的案例中使用以下命令行选项：

$ wget -r http://www.example.com/ -l X

很明显，你会取代http://www.example.com/ 使用您选择的URL和所需深度的X。

考虑到我可以解析winhttptrack的输出以提取URL。winhttrack将下载完整的web，因为最终url是类似“facebook.com”的url，它也将转储此url。我不知道它是否接受深度选项。有一个深度选项限制选项：rN将镜像深度设置为N*r9999-depth[=N]如果我不想访问其他网站怎么办？外部网站的链接在不同阶段都可用。知道rN和%eN之间的区别吗？对于其他网站，请检查扫描规则。Put-*和+*我认为httrack非常灵活，但您需要进行一些阅读和测试，以使其正常工作；是的，我正在寻找一些规则，将其约束到dir.yahoo.com域本身考虑到我可以解析winhttptrack的输出来提取URL。winhttrack将下载完整的web，因为最终url是类似“facebook.com”的url，它也将转储此url。我不知道它是否接受深度选项。有一个深度选项限制选项：rN将镜像深度设置为N*r9999-depth[=N]如果我不想访问其他网站怎么办？外部网站的链接在不同阶段都可用。知道rN和%eN之间的区别吗？对于其他网站，请检查扫描规则。Put-*和+*我认为httrack非常灵活，但您需要进行一些阅读和测试，以使其正常工作；是的，我正在寻找一些规则，将其约束到dir.yahoo.com域本身这真是一个伟大而简单的答案！我面临的唯一问题是，一些网站甚至在使用WAIT选项后也会阻止wget递归。有什么建议吗？您可能需要设置一个用户代理来伪装wget。一个简单的wget-user-agent=Mozilla/5.0[…]就足够了。这真是一个伟大而简单的答案！我面临的唯一问题是，一些网站甚至在使用WAIT选项后也会阻止wget递归。有什么建议吗？您可能需要设置一个用户代理来伪装wget。一个简单的wget-user-agent=Mozilla/5.0[…]就足够了。