Java 使用Web爬虫抓取Web数据_Java_Web Crawler

Java 使用Web爬虫抓取Web数据

java web-crawler

Java 使用Web爬虫抓取Web数据,java,web-crawler,Java,Web Crawler,我想使用网络爬虫和爬网一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业、专题报告等。我的问题是，我可以使用网络爬虫下载已上传到学习管理系统中的文件吗。下载它们之后，我想在它们上创建一个索引，以便查询文档集。用户可以将我的应用程序用作搜索引擎。爬虫能做到这一点吗？我知道webeater（用Java编写的爬虫程序）下载Java单线程中的文件解析这些文件（您可以从nutch的解析插件中获得想法）使用lucene创建索引如果您想使用真正的webcrawler，请使用它为您

我想使用网络爬虫和爬网一个特定的网站。该网站是一个学习管理系统，许多学生在这里上传他们的作业、专题报告等。我的问题是，我可以使用网络爬虫下载已上传到学习管理系统中的文件吗。下载它们之后，我想在它们上创建一个索引，以便查询文档集。用户可以将我的应用程序用作搜索引擎。爬虫能做到这一点吗？我知道webeater（用Java编写的爬虫程序）

下载Java单线程中的文件

解析这些文件（您可以从nutch的解析插件中获得想法）

使用lucene创建索引

如果您想使用真正的webcrawler，请使用

它为您提供了许多复制网站或网页内容的选项，包括flash。它可以在windows和mac上运行

然后，您可以按照上述建议执行步骤2和步骤3。

如果您可以手动查看作业、演示文稿等，爬虫程序也可以。我可以将它们视为一个链接，单击后可以下载这些链接。“我想使用网络爬虫对特定网站进行爬网。”哪个网站？什么是URL？我不明白步骤1。Java中的单线程是什么。我知道java中的线程。你能提供更多关于这方面的信息吗？推荐Lucene做一个小规模的任务，这是我听过的最荒谬的事情。。使用SQLite，您将在一小时内完成。