Java Web爬虫与Html解析器
网络爬虫和解析器的区别是什么 在java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫程序,将jsoup命名为解析器 他们的目的相同吗 他们的工作完全相似吗Java Web爬虫与Html解析器,java,web-crawler,jsoup,crawler4j,Java,Web Crawler,Jsoup,Crawler4j,网络爬虫和解析器的区别是什么 在java中,有一些用于获取库的名称。例如,他们将nutch命名为爬虫程序,将jsoup命名为解析器 他们的目的相同吗 他们的工作完全相似吗 谢谢通过在维基百科上查找以下内容可以轻松回答: 解析器是一种软件组件,用于获取输入数据(通常是 文本)并构建数据结构 一种网络爬虫,有时称为蜘蛛或蜘蛛机器人,通常称为 缩写为crawler,是一种系统浏览的[互联网机器人] 万维网,通常用于网络索引(Web 蜘蛛网) jsoup库是一个用于处理真实HTML的Java库。它能够
谢谢通过在维基百科上查找以下内容可以轻松回答: 解析器是一种软件组件,用于获取输入数据(通常是 文本)并构建数据结构 一种网络爬虫,有时称为蜘蛛或蜘蛛机器人,通常称为 缩写为crawler,是一种系统浏览的[互联网机器人] 万维网,通常用于网络索引(Web 蜘蛛网)
jsoup库是一个用于处理真实HTML的Java库。它能够获取并处理HTML。但是,它通常不是一个Web爬虫程序,因为它一次只能获取一个页面(不需要编写自定义程序(=爬虫程序),使用
jsoup
获取、提取和获取新的URL)
网络爬虫使用HTML解析器从以前获取的网站提取URL,并将新发现的URL添加到其前沿
可以在以下答案中找到Web爬虫的一般序列图:
总结一下:
HTML解析器是Web爬虫的必要组件,用于从给定的HTML输入中解析和提取URL。但是,HTML解析器本身并不是一个网络爬虫,因为它缺少一些必要的功能,例如维护以前访问过的URL、礼貌等。但是我不明白它们之间的主要区别是什么?