Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/mongodb/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Mongodb 使用Nutch2获取所有Pdf文件URL_Mongodb_Apache_Web Crawler_Nutch - Fatal编程技术网

Mongodb 使用Nutch2获取所有Pdf文件URL

Mongodb 使用Nutch2获取所有Pdf文件URL,mongodb,apache,web-crawler,nutch,Mongodb,Apache,Web Crawler,Nutch,我将Nutch2.3.1与MongoDB结合使用以实现持久性。我的目标是在不下载的情况下提取文件URL 现在它正在下载该文件。如何禁用下载并仅在数据库中保留URL 如何从Nutch2中提取所有已爬网的URL?根据您想要完成的任务,这可能需要进行一些修改: 如果您不想解析/提取PDF文件中的文本,那么您可以将http.content.limit的值设置得较低,这将基本上防止Nutch下载超过您在那里指定的字节,但仍然能够发现文件的URL,并将下载一个片段(指定的字节数) 当然,这也会影响要获取/下

我将Nutch2.3.1与MongoDB结合使用以实现持久性。我的目标是在不下载的情况下提取文件URL

现在它正在下载该文件。如何禁用下载并仅在数据库中保留URL


如何从Nutch2中提取所有已爬网的URL?

根据您想要完成的任务,这可能需要进行一些修改:

如果您不想解析/提取PDF文件中的文本,那么您可以将
http.content.limit
的值设置得较低,这将基本上防止Nutch下载超过您在那里指定的字节,但仍然能够发现文件的URL,并将下载一个片段(指定的字节数)

当然,这也会影响要获取/下载的其余URL

一种方法是编写自己的协议插件,防止下载任何PDF文件