Mongodb 使用ApacheNutch抓取图像

Mongodb 使用ApacheNutch抓取图像,mongodb,apache,solr,web-crawler,nutch,Mongodb,Apache,Solr,Web Crawler,Nutch,我安装了ApacheNutch2.3.1和Solr6.5.1以及MongoDB3.4.7。 在我抓取包含许多图像的URL之后,Solr和mongoDB中没有任何图像和视频。 我还更改了apache nutch中的regex-urlfilter.txt文件,并删除了与图像(.png、.jpeg、.gift、…)相关的后缀。 之后,我更改了suffix-urlfilter.txt文件,并对jpeg、gif和png进行了注释。 这样做之后,ApacheNutch不会抓取图像。 现在我想知道如何抓取图像

我安装了ApacheNutch2.3.1和Solr6.5.1以及MongoDB3.4.7。 在我抓取包含许多图像的URL之后,Solr和mongoDB中没有任何图像和视频。 我还更改了apache nutch中的regex-urlfilter.txt文件,并删除了与图像(.png、.jpeg、.gift、…)相关的后缀。 之后,我更改了suffix-urlfilter.txt文件,并对jpeg、gif和png进行了注释。
这样做之后,ApacheNutch不会抓取图像。 现在我想知道如何抓取图像并在Solr中看到它?
当我读到它时,我明白我应该创建插件。我的印象正确吗?

Nutch:纯文本、HTML/XHTML+XML、XML、MS Office文件、Adobe PDF、RSS、RTF、MP3。不幸的是,不支持任何类型的图像文件。除此之外,我很好奇,你想在图像文件中索引什么?

如果我理解你的问题,你想完成的是从图像中提取所有元数据,并在Solr中只索引这个,对吗

如果Nutch甚至没有抓取您的图像,则更有可能是某些URL过滤器将URL排除在抓取之外(请查看日志)。您需要描述对不同文件的更改,否则将无法帮助您

现在,回到原来的问题,如果您只想索引图像URL(以及元数据),那么您需要过滤索引到Solr中的内容。不幸的是,Nutch2.3没有提供(开箱即用)这一功能。简而言之,您可以使用
mimetype过滤器
,它允许您根据URL的mime类型指定要索引到Solr/ES中的内容。我的建议是使用Nutch1.x,除非你有很好的理由使用Nutch2.x。否则,您可以将
mimetype过滤器
插件移植到2.x,或者编写支持您自己逻辑的
IndexingFiler

请记住,您将在Solr中获得的信息仅限于tika可以从图像文件(元数据)中提取的内容,而图像文件通常不是精心策划的


谢谢你的回复。实际上,我想使用获取特定url中的所有图像。那个么,有并没有抓取图像的解决方案?Nutch是一个索引工具,你们想从图像中索引什么?我只想抓取图像并制作一个大数据集来进行图像处理。实际上,我想用ApacheNutch来代替逐个下载图像!你是如何解决你的问题的?您是否使用Nutch下载图像?请提供一些细节?谢谢你的回复。实际上,我想在mongoDB中分别抓取和保存图像、视频、文本和其他格式的数据,然后对提取的数据进行图像处理和文本挖掘。但是现在,在我创建了一个url之后,我只看到了mongoDB中的部分文本。在我这些天做了大量搜索之后,你也提出了我的建议,我知道我的类型插件是我的解决方案。我也想测试一下这个插件。但我不知道如何将这个插件添加到我安装的ApacheNutch???我找不到一个循序渐进的答案。另一件让我心烦意乱的事情是,泰卡能成为我的解决方案吗?它是什么?Taika和mine类型插件之间的区别是什么?如果你指的是Tika,Nutch已经使用Tika提取了我在回答中提到的元数据。由于您使用的是Nutch 2.3.1,因此此版本的Nutch无法使用
mimetype插件。因此,您可以开始使用Nutch 1.x,或者尝试将插件移植到Nutch 2.x。感谢您的响应。我很难使用ApacheNutch在mongoBD中存储图像。据我所知,我必须创建一个插件到crwal图像。你知道ApacheNutch的标准图像插件吗?实际上我想在mongoDB中存储文本,但在crwal之后,我只看到许多链接而不是文本。有没有办法将链接内容直接存储到mongoDB中?