Mongodb 使用Nutch2获取所有Pdf文件URL
我将Nutch2.3.1与MongoDB结合使用以实现持久性。我的目标是在不下载的情况下提取文件URL 现在它正在下载该文件。如何禁用下载并仅在数据库中保留URLMongodb 使用Nutch2获取所有Pdf文件URL,mongodb,apache,web-crawler,nutch,Mongodb,Apache,Web Crawler,Nutch,我将Nutch2.3.1与MongoDB结合使用以实现持久性。我的目标是在不下载的情况下提取文件URL 现在它正在下载该文件。如何禁用下载并仅在数据库中保留URL 如何从Nutch2中提取所有已爬网的URL?根据您想要完成的任务,这可能需要进行一些修改: 如果您不想解析/提取PDF文件中的文本,那么您可以将http.content.limit的值设置得较低,这将基本上防止Nutch下载超过您在那里指定的字节,但仍然能够发现文件的URL,并将下载一个片段(指定的字节数) 当然,这也会影响要获取/下
如何从Nutch2中提取所有已爬网的URL?根据您想要完成的任务,这可能需要进行一些修改: 如果您不想解析/提取PDF文件中的文本,那么您可以将
http.content.limit
的值设置得较低,这将基本上防止Nutch下载超过您在那里指定的字节,但仍然能够发现文件的URL,并将下载一个片段(指定的字节数)
当然,这也会影响要获取/下载的其余URL
一种方法是编写自己的协议插件,防止下载任何PDF文件