Java 是否可以在solr中存储完整的html页面源代码?

Java 是否可以在solr中存储完整的html页面源代码?,java,solr,nutch,Java,Solr,Nutch,在我前面的问题中,我得到的答案是,我可以在solr中存储小索引(几个站点)数据,而无需使用任何数据库()。我想知道,是否可以在solr中存储完整的html页面源代码而不使用任何数据库?如果您想抓取网站并将其索引,Nutch with solr是一种解决方案。 将让您开始。 但是,Nutch不会使用html标记维护原始Solr代码 您需要通过下载html页面来开发自定义解决方案,然后可以使用来向Solr提供html文件并从html文件中提取内容。e、 g.在 Solr用于从 您还可以检查是否以ht

在我前面的问题中,我得到的答案是,我可以在solr中存储小索引(几个站点)数据,而无需使用任何数据库()。我想知道,是否可以在solr中存储完整的html页面源代码而不使用任何数据库?

如果您想抓取网站并将其索引,Nutch with solr是一种解决方案。
将让您开始。
但是,Nutch不会使用html标记维护原始Solr代码

您需要通过下载html页面来开发自定义解决方案,然后可以使用来向Solr提供html文件并从html文件中提取内容。e、 g.在

Solr用于从


您还可以检查是否以html文本形式提供数据。

如果您想对网站进行爬网并将其索引,Nutch with Solr是一种解决方案。
将让您开始。
但是,Nutch不会使用html标记维护原始Solr代码

您需要通过下载html页面来开发自定义解决方案,然后可以使用来向Solr提供html文件并从html文件中提取内容。e、 g.在

Solr用于从


您还可以检查是否以html文本形式提供数据。

我可以使用nutch下载html页面吗?nutch是一个爬虫程序,它可以帮助您在页面中爬行,并在Solr中为内容编制索引。但是,您不会有原始内容。我可以在索引中存储两部分数据吗(第一部分是nutch的内容数据,第二部分是任何html解析器的原始源代码),您认为如何?不。。我认为你没有从nutch那里得到原始内容。你可能想检查一下这是否可行。可能有其他软件解决方案可以解决我的任务,你知道吗?我可以使用nutch下载html页面吗?nutch是一个爬虫程序,它可以帮助你在页面中爬行并在Solr中索引内容。但是,您不会有原始内容。我可以在索引中存储两部分数据吗(第一部分是nutch的内容数据,第二部分是任何html解析器的原始源代码),您认为如何?不。。我认为你没有从nutch那里得到原始内容。您可能想检查一下是否可行。可能还有其他软件解决方案可以解决我的任务,您知道吗?