Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/selenium/4.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java Web爬虫与Html解析器_Java_Web Crawler_Jsoup_Crawler4j - Fatal编程技术网

Java Web爬虫与Html解析器

Java Web爬虫与Html解析器,java,web-crawler,jsoup,crawler4j,Java,Web Crawler,Jsoup,Crawler4j,网络爬虫和解析器的区别是什么 在java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫程序,将jsoup命名为解析器 他们的目的相同吗 他们的工作完全相似吗 谢谢通过在维基百科上查找以下内容可以轻松回答: 解析器是一种软件组件,用于获取输入数据(通常是 文本)并构建数据结构 一种网络爬虫,有时称为蜘蛛或蜘蛛机器人,通常称为 缩写为crawler,是一种系统浏览的[互联网机器人] 万维网,通常用于网络索引(Web 蜘蛛网) jsoup库是一个用于处理真实HTML的Java库。它能够

网络爬虫和解析器的区别是什么

在java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫程序,将jsoup命名为解析器

他们的目的相同吗

他们的工作完全相似吗


谢谢

通过在维基百科上查找以下内容可以轻松回答:

解析器是一种软件组件,用于获取输入数据(通常是 文本)并构建数据结构

一种网络爬虫,有时称为蜘蛛或蜘蛛机器人,通常称为 缩写为crawler,是一种系统浏览的[互联网机器人] 万维网,通常用于网络索引(Web 蜘蛛网)


jsoup库是一个用于处理真实HTML的Java库。它能够获取并处理HTML。但是,它通常不是一个Web爬虫程序,因为它一次只能获取一个页面(不需要编写自定义程序(=爬虫程序),使用
jsoup
获取、提取和获取新的URL)

网络爬虫使用HTML解析器从以前获取的网站提取URL,并将新发现的URL添加到其前沿

可以在以下答案中找到Web爬虫的一般序列图:

总结一下:


HTML解析器是Web爬虫的必要组件,用于从给定的HTML输入中解析和提取URL。但是,HTML解析器本身并不是一个网络爬虫,因为它缺少一些必要的功能,例如维护以前访问过的URL、礼貌等。

但是我不明白它们之间的主要区别是什么?