Java 通过身份验证遍历网站的特定路径。网络爬虫还是标准的HttpClient？_Java_Http_Web Crawler_Web Scraping

Java 通过身份验证遍历网站的特定路径。网络爬虫还是标准的HttpClient？

java http web-crawler web-scraping

Java 通过身份验证遍历网站的特定路径。网络爬虫还是标准的HttpClient？,java,http,web-crawler,web-scraping,Java,Http,Web Crawler,Web Scraping,我必须以特定的路径遍历一个网站，并从中提取信息。以下是高层行动。如果有人能告诉我我是否需要一个网络爬虫，或者我最好使用HttpClient或JDK的内置功能来编写这个流，我将不胜感激访问网站使用转换到http s的表单登录点击一个特定的链接，转换回http 填写表格数据并单击搜索按钮网站每次返回一页结果单击每个搜索结果从该链接提取数据执行步骤6和7，直到读取所有搜索结果。我知道这是一个老问题，但如果有人正在寻找一个现有的网络爬虫，这样做，知道这是一个网络爬虫支持基于表单的身份验证

我必须以特定的路径遍历一个网站，并从中提取信息。以下是高层行动。如果有人能告诉我我是否需要一个网络爬虫，或者我最好使用HttpClient或JDK的内置功能来编写这个流，我将不胜感激

访问网站使用转换到http s的表单登录点击一个特定的链接，转换回http 填写表格数据并单击搜索按钮网站每次返回一页结果单击每个搜索结果从该链接提取数据执行步骤6和7，直到读取所有搜索结果。

我知道这是一个老问题，但如果有人正在寻找一个现有的网络爬虫，这样做，知道这是一个网络爬虫支持基于表单的身份验证。除了登录表单URL之外，还可以指定起始URL。它将让您登录并按照您的预期抓取您的站点/URL。它要么遵循所有链接，要么只遵循与您的标准匹配的链接正则表达式模式、最大URL、最大深度等。它可以与不同的搜索引擎Solr、Elasticsearch、Autonomy IDOL等集成，或者您可以定义如何处理已爬网的文档。

我知道这是一个老问题，但是，如果有人正在寻找一个现有的网络爬虫来实现这一点，请知道这是一个支持基于表单的身份验证的网络爬虫。除了登录表单URL之外，还可以指定起始URL。它将让您登录并按照您的预期抓取您的站点/URL。它要么遵循所有链接，要么只遵循符合您标准的正则表达式模式、最大URL、最大深度等。它可以与不同的搜索引擎Solr、Elasticsearch、Autonomy IDOL等集成，或者您可以定义如何处理已爬网的文档。

这可以通过爬网器完成。我不像perl那样有Java方面的经验，但看起来有些可以用HttpClients来完成。这可以用爬虫程序来完成。我不像perl那样有Java方面的经验，但它看起来可以通过HttpClient来完成