Web scraping 一个基本的爬虫/刮板,可以提供父URL下的所有URL

Web scraping 一个基本的爬虫/刮板,可以提供父URL下的所有URL,web-scraping,web-crawler,Web Scraping,Web Crawler,给定一个父URL,比如说,我想刮除这个页面上的所有URL,直到深度X 我不想转移到另一个领域,即使深度标准迫使它这样做。我不想去深度2,它不在dir.yahoo.com下 一定有一些工具可以用来做这件事。试试看。试试看 具体来说,您希望在您的案例中使用以下命令行选项: $ wget -r http://www.example.com/ -l X 很明显,你会取代http://www.example.com/ 用你选择的URL和你想要的深度的X 具体来说,您希望在您的案例中使用以下命令行选项:

给定一个父URL,比如说,我想刮除这个页面上的所有URL,直到深度X

我不想转移到另一个领域,即使深度标准迫使它这样做。我不想去深度2,它不在dir.yahoo.com下

一定有一些工具可以用来做这件事。

试试看。

试试看

具体来说,您希望在您的案例中使用以下命令行选项:

$ wget -r http://www.example.com/ -l X
很明显,你会取代http://www.example.com/ 用你选择的URL和你想要的深度的X

具体来说,您希望在您的案例中使用以下命令行选项:

$ wget -r http://www.example.com/ -l X

很明显,你会取代http://www.example.com/ 使用您选择的URL和所需深度的X。

考虑到我可以解析winhttptrack的输出以提取URL。winhttrack将下载完整的web,因为最终url是类似“facebook.com”的url,它也将转储此url。我不知道它是否接受深度选项。有一个深度选项限制选项:rN将镜像深度设置为N*r9999-depth[=N]如果我不想访问其他网站怎么办?外部网站的链接在不同阶段都可用。知道rN和%eN之间的区别吗?对于其他网站,请检查扫描规则。Put-*和+*我认为httrack非常灵活,但您需要进行一些阅读和测试,以使其正常工作;是的,我正在寻找一些规则,将其约束到dir.yahoo.com域本身考虑到我可以解析winhttptrack的输出来提取URL。winhttrack将下载完整的web,因为最终url是类似“facebook.com”的url,它也将转储此url。我不知道它是否接受深度选项。有一个深度选项限制选项:rN将镜像深度设置为N*r9999-depth[=N]如果我不想访问其他网站怎么办?外部网站的链接在不同阶段都可用。知道rN和%eN之间的区别吗?对于其他网站,请检查扫描规则。Put-*和+*我认为httrack非常灵活,但您需要进行一些阅读和测试,以使其正常工作;是的,我正在寻找一些规则,将其约束到dir.yahoo.com域本身这真是一个伟大而简单的答案!我面临的唯一问题是,一些网站甚至在使用WAIT选项后也会阻止wget递归。有什么建议吗?您可能需要设置一个用户代理来伪装wget。一个简单的wget-user-agent=Mozilla/5.0[…]就足够了。这真是一个伟大而简单的答案!我面临的唯一问题是,一些网站甚至在使用WAIT选项后也会阻止wget递归。有什么建议吗?您可能需要设置一个用户代理来伪装wget。一个简单的wget-user-agent=Mozilla/5.0[…]就足够了。