Java 网络爬虫&x27；s功能_Java_Open Source_Web Crawler

Java 网络爬虫&x27；s功能

java open-source web-crawler

Java 网络爬虫&x27；s功能,java,open-source,web-crawler,Java,Open Source,Web Crawler,网络爬虫是否只返回从网页中提取的文本？比方说，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬过它们并返回它们的内容吗？总之，对于一个好的开源Java web爬虫有什么建议谢谢大家! 网络爬虫不会提取文本。它只返回应用了一些转换（例如UTF-8转换）的htmls 如果你认为它的方式为爬虫它没有关系在第一跳。当然，对于多跳，它需要查看这些文档，典型的爬虫程序不会在pdf/docs等文件中提供多跳。没有完全理解您在第二段中所说的内容。你能解释一下你所说的跳跃是什么意思吗？我所说的跳

网络爬虫是否只返回从网页中提取的文本？比方说，如果web服务器中也存储了一些pdf/doc文件。网络爬虫可以爬过它们并返回它们的内容吗？总之，对于一个好的开源Java web爬虫有什么建议

谢谢大家!

网络爬虫不会提取文本。它只返回应用了一些转换（例如UTF-8转换）的htmls

如果你认为它的方式为爬虫它没有关系在第一跳。当然，对于多跳，它需要查看这些文档，典型的爬虫程序不会在pdf/docs等文件中提供多跳。

没有完全理解您在第二段中所说的内容。你能解释一下你所说的跳跃是什么意思吗？我所说的跳跃是指html链接后的跳跃次数。如果从第一个文档转到链接文档，则为第一个跃点；如果转到链接的链接，则为第二个跃点，依此类推。