Java 网络爬虫&x27;s功能

Java 网络爬虫&x27;s功能,java,open-source,web-crawler,Java,Open Source,Web Crawler,网络爬虫是否只返回从网页中提取的文本?比方说,如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬过它们并返回它们的内容吗?总之,对于一个好的开源Java web爬虫有什么建议 谢谢大家! 网络爬虫不会提取文本。它只返回应用了一些转换(例如UTF-8转换)的htmls 如果你认为它的方式为爬虫它没有关系在第一跳。当然,对于多跳,它需要查看这些文档,典型的爬虫程序不会在pdf/docs等文件中提供多跳。没有完全理解您在第二段中所说的内容。你能解释一下你所说的跳跃是什么意思吗?我所说的跳

网络爬虫是否只返回从网页中提取的文本?比方说,如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬过它们并返回它们的内容吗?总之,对于一个好的开源Java web爬虫有什么建议


谢谢大家!

网络爬虫不会提取文本。它只返回应用了一些转换(例如UTF-8转换)的htmls


如果你认为它的方式为爬虫它没有关系在第一跳。当然,对于多跳,它需要查看这些文档,典型的爬虫程序不会在pdf/docs等文件中提供多跳。

没有完全理解您在第二段中所说的内容。你能解释一下你所说的跳跃是什么意思吗?我所说的跳跃是指html链接后的跳跃次数。如果从第一个文档转到链接文档,则为第一个跃点;如果转到链接的链接,则为第二个跃点,依此类推。