Mongodb 使用ApacheNutch抓取图像_Mongodb_Apache_Solr_Web Crawler_Nutch

Mongodb 使用ApacheNutch抓取图像

mongodb apache solr web-crawler

Mongodb 使用ApacheNutch抓取图像,mongodb,apache,solr,web-crawler,nutch,Mongodb,Apache,Solr,Web Crawler,Nutch,我安装了ApacheNutch2.3.1和Solr6.5.1以及MongoDB3.4.7。在我抓取包含许多图像的URL之后，Solr和mongoDB中没有任何图像和视频。我还更改了apache nutch中的regex-urlfilter.txt文件，并删除了与图像（.png、.jpeg、.gift、…）相关的后缀。之后，我更改了suffix-urlfilter.txt文件，并对jpeg、gif和png进行了注释。这样做之后，ApacheNutch不会抓取图像。现在我想知道如何抓取图像

我安装了ApacheNutch2.3.1和Solr6.5.1以及MongoDB3.4.7。在我抓取包含许多图像的URL之后，Solr和mongoDB中没有任何图像和视频。我还更改了apache nutch中的regex-urlfilter.txt文件，并删除了与图像（.png、.jpeg、.gift、…）相关的后缀。之后，我更改了suffix-urlfilter.txt文件，并对jpeg、gif和png进行了注释。
这样做之后，ApacheNutch不会抓取图像。现在我想知道如何抓取图像并在Solr中看到它？

当我读到它时，我明白我应该创建插件。我的印象正确吗？

Nutch：纯文本、HTML/XHTML+XML、XML、MS Office文件、Adobe PDF、RSS、RTF、MP3。不幸的是，不支持任何类型的图像文件。除此之外，我很好奇，你想在图像文件中索引什么？

如果我理解你的问题，你想完成的是从图像中提取所有元数据，并在Solr中只索引这个，对吗

如果Nutch甚至没有抓取您的图像，则更有可能是某些URL过滤器将URL排除在抓取之外（请查看日志）。您需要描述对不同文件的更改，否则将无法帮助您

现在，回到原来的问题，如果您只想索引图像URL（以及元数据），那么您需要过滤索引到Solr中的内容。不幸的是，Nutch2.3没有提供（开箱即用）这一功能。简而言之，您可以使用

mimetype过滤器

，它允许您根据URL的mime类型指定要索引到Solr/ES中的内容。我的建议是使用Nutch1.x，除非你有很好的理由使用Nutch2.x。否则，您可以将

mimetype过滤器

插件移植到2.x，或者编写支持您自己逻辑的

IndexingFiler

请记住，您将在Solr中获得的信息仅限于tika可以从图像文件（元数据）中提取的内容，而图像文件通常不是精心策划的

谢谢你的回复。实际上，我想使用获取特定url中的所有图像。那个么，有并没有抓取图像的解决方案？Nutch是一个索引工具，你们想从图像中索引什么？我只想抓取图像并制作一个大数据集来进行图像处理。实际上，我想用ApacheNutch来代替逐个下载图像！你是如何解决你的问题的？您是否使用Nutch下载图像？请提供一些细节？谢谢你的回复。实际上，我想在mongoDB中分别抓取和保存图像、视频、文本和其他格式的数据，然后对提取的数据进行图像处理和文本挖掘。但是现在，在我创建了一个url之后，我只看到了mongoDB中的部分文本。在我这些天做了大量搜索之后，你也提出了我的建议，我知道我的类型插件是我的解决方案。我也想测试一下这个插件。但我不知道如何将这个插件添加到我安装的ApacheNutch？？？我找不到一个循序渐进的答案。另一件让我心烦意乱的事情是，泰卡能成为我的解决方案吗？它是什么？Taika和mine类型插件之间的区别是什么？如果你指的是Tika，Nutch已经使用Tika提取了我在回答中提到的元数据。由于您使用的是Nutch 2.3.1，因此此版本的Nutch无法使用

mimetype插件。因此，您可以开始使用Nutch 1.x，或者尝试将插件移植到Nutch 2.x。感谢您的响应。我很难使用ApacheNutch在mongoBD中存储图像。据我所知，我必须创建一个插件到crwal图像。你知道ApacheNutch的标准图像插件吗？实际上我想在mongoDB中存储文本，但在crwal之后，我只看到许多链接而不是文本。有没有办法将链接内容直接存储到mongoDB中？