Java 通过身份验证遍历网站的特定路径。网络爬虫还是标准的HttpClient?

Java 通过身份验证遍历网站的特定路径。网络爬虫还是标准的HttpClient?,java,http,web-crawler,web-scraping,Java,Http,Web Crawler,Web Scraping,我必须以特定的路径遍历一个网站,并从中提取信息。以下是高层行动。如果有人能告诉我我是否需要一个网络爬虫,或者我最好使用HttpClient或JDK的内置功能来编写这个流,我将不胜感激 访问网站 使用转换到http s的表单登录 点击一个特定的链接,转换回http 填写表格数据并单击搜索按钮 网站每次返回一页结果 单击每个搜索结果 从该链接提取数据 执行步骤6和7,直到读取所有搜索结果。 我知道这是一个老问题,但如果有人正在寻找一个现有的网络爬虫,这样做,知道这是一个网络爬虫支持基于表单的身份验证

我必须以特定的路径遍历一个网站,并从中提取信息。以下是高层行动。如果有人能告诉我我是否需要一个网络爬虫,或者我最好使用HttpClient或JDK的内置功能来编写这个流,我将不胜感激

访问网站 使用转换到http s的表单登录 点击一个特定的链接,转换回http 填写表格数据并单击搜索按钮 网站每次返回一页结果 单击每个搜索结果 从该链接提取数据 执行步骤6和7,直到读取所有搜索结果。
我知道这是一个老问题,但如果有人正在寻找一个现有的网络爬虫,这样做,知道这是一个网络爬虫支持基于表单的身份验证。除了登录表单URL之外,还可以指定起始URL。它将让您登录并按照您的预期抓取您的站点/URL。它要么遵循所有链接,要么只遵循与您的标准匹配的链接正则表达式模式、最大URL、最大深度等。它可以与不同的搜索引擎Solr、Elasticsearch、Autonomy IDOL等集成,或者您可以定义如何处理已爬网的文档。

我知道这是一个老问题,但是,如果有人正在寻找一个现有的网络爬虫来实现这一点,请知道这是一个支持基于表单的身份验证的网络爬虫。除了登录表单URL之外,还可以指定起始URL。它将让您登录并按照您的预期抓取您的站点/URL。它要么遵循所有链接,要么只遵循符合您标准的正则表达式模式、最大URL、最大深度等。它可以与不同的搜索引擎Solr、Elasticsearch、Autonomy IDOL等集成,或者您可以定义如何处理已爬网的文档。

这可以通过爬网器完成。我不像perl那样有Java方面的经验,但看起来有些可以用HttpClients来完成。这可以用爬虫程序来完成。我不像perl那样有Java方面的经验,但它看起来可以通过HttpClient来完成