Java-从网页获取文本

Java-从网页获取文本,java,web-applications,web-scraping,Java,Web Applications,Web Scraping,我正在开始一个新的项目,这是我在Java中从未尝试过的,我以前一直在研究。我的研究并没有让我走得比我开始的地方更远 基本上,我的项目将做到这一点: 搜索网站并获取 相应的数据(基本上是搜索) 它的搜索引擎是基于查询的 用户输入,然后返回 相应结果) 用户单击其中一个结果 然后程序将显示某些 值(值将显示在 结果(个人网页) 到目前为止,我所知道的关于如何做到这一点是网页抓取。我找不到任何例子,所以我对这一点仍然一无所知 这真的有可能吗?我将在Android SDK中使用Java。我有一个想法

我正在开始一个新的项目,这是我在Java中从未尝试过的,我以前一直在研究。我的研究并没有让我走得比我开始的地方更远

基本上,我的项目将做到这一点:

  • 搜索网站并获取 相应的数据(基本上是搜索) 它的搜索引擎是基于查询的 用户输入,然后返回 相应结果)

  • 用户单击其中一个结果 然后程序将显示某些
    值(值将显示在
    结果(个人网页)

到目前为止,我所知道的关于如何做到这一点是网页抓取。我找不到任何例子,所以我对这一点仍然一无所知

这真的有可能吗?我将在Android SDK中使用Java。我有一个想法,但我的Java知识并不包含任何与网页等相关的内容

提前感谢,
布兰登当然有可能。也许这方面最好的图书馆是。它基于像Lucene这样强大的库堆栈,并且非常成熟。查看他们的教程,您可能会找到快速poc所需的所有信息。

Nutch是一个很棒的工具,但对于一个小项目来说可能有点过火。如果你正在寻找一些真正快速、肮脏、容易理解的东西,你应该仔细研究一下

请参见此处的使用示例:

你可以把它放到你的项目中,在10分钟内完成