Java 使用Web爬虫抓取Web数据

Java 使用Web爬虫抓取Web数据,java,web-crawler,Java,Web Crawler,我想使用网络爬虫和爬网一个特定的网站。该网站是一个学习管理系统,许多学生在这里上传他们的作业、专题报告等。我的问题是,我可以使用网络爬虫下载已上传到学习管理系统中的文件吗。下载它们之后,我想在它们上创建一个索引,以便查询文档集。用户可以将我的应用程序用作搜索引擎。爬虫能做到这一点吗?我知道webeater(用Java编写的爬虫程序) 下载Java单线程中的文件 解析这些文件(您可以从nutch的解析插件中获得想法) 使用lucene创建索引 如果您想使用真正的webcrawler,请使用 它为您

我想使用网络爬虫和爬网一个特定的网站。该网站是一个学习管理系统,许多学生在这里上传他们的作业、专题报告等。我的问题是,我可以使用网络爬虫下载已上传到学习管理系统中的文件吗。下载它们之后,我想在它们上创建一个索引,以便查询文档集。用户可以将我的应用程序用作搜索引擎。爬虫能做到这一点吗?我知道webeater(用Java编写的爬虫程序)

  • 下载Java单线程中的文件
  • 解析这些文件(您可以从nutch的解析插件中获得想法)
  • 使用lucene创建索引

  • 如果您想使用真正的webcrawler,请使用

    它为您提供了许多复制网站或网页内容的选项,包括flash。它可以在windows和mac上运行


    然后,您可以按照上述建议执行步骤2和步骤3。

    如果您可以手动查看作业、演示文稿等,爬虫程序也可以。我可以将它们视为一个链接,单击后可以下载这些链接。“我想使用网络爬虫对特定网站进行爬网。”哪个网站?什么是URL?我不明白步骤1。Java中的单线程是什么。我知道java中的线程。你能提供更多关于这方面的信息吗?推荐Lucene做一个小规模的任务,这是我听过的最荒谬的事情。。使用SQLite,您将在一小时内完成。