Mongodb 使用Nutch2获取所有Pdf文件URL_Mongodb_Apache_Web Crawler_Nutch

Mongodb 使用Nutch2获取所有Pdf文件URL

mongodb apache web-crawler

Mongodb 使用Nutch2获取所有Pdf文件URL,mongodb,apache,web-crawler,nutch,Mongodb,Apache,Web Crawler,Nutch,我将Nutch2.3.1与MongoDB结合使用以实现持久性。我的目标是在不下载的情况下提取文件URL 现在它正在下载该文件。如何禁用下载并仅在数据库中保留URL 如何从Nutch2中提取所有已爬网的URL？根据您想要完成的任务，这可能需要进行一些修改：如果您不想解析/提取PDF文件中的文本，那么您可以将http.content.limit的值设置得较低，这将基本上防止Nutch下载超过您在那里指定的字节，但仍然能够发现文件的URL，并将下载一个片段（指定的字节数）当然，这也会影响要获取/下

我将Nutch2.3.1与MongoDB结合使用以实现持久性。我的目标是在不下载的情况下提取文件URL

现在它正在下载该文件。如何禁用下载并仅在数据库中保留URL

如何从Nutch2中提取所有已爬网的URL？

根据您想要完成的任务，这可能需要进行一些修改：

如果您不想解析/提取PDF文件中的文本，那么您可以将

http.content.limit

的值设置得较低，这将基本上防止Nutch下载超过您在那里指定的字节，但仍然能够发现文件的URL，并将下载一个片段（指定的字节数）

当然，这也会影响要获取/下载的其余URL

一种方法是编写自己的协议插件，防止下载任何PDF文件