如何使用Xpath和SOLR为HTML中的特定标记编制索引_Solr

如何使用Xpath和SOLR为HTML中的特定标记编制索引

solr

如何使用Xpath和SOLR为HTML中的特定标记编制索引,solr,Solr,为了避免数据重复，我打算只存储一个已爬网的HTML文件，但在索引时，通过SOLR中的过滤器或函数使用Xpath对HTML进行解析 html本身不编制索引，而是转换为solr将使用Xpath编制索引的字段我在SOLR是一个完全的新手，但我可以想象我应该能够做如下事情：调用数据库索引URL 在SOLR中注册一个过滤器，它获取每个记录并将其转换为多个字段如果您有任何信息，谢谢。这取决于您想要的用例。HTML和XML一样，不是一个平面数据结构。您希望如何在Solr文档中表示HTML？您从HTML中

为了避免数据重复，我打算只存储一个已爬网的HTML文件，但在索引时，通过SOLR中的过滤器或函数使用Xpath对HTML进行解析

html本身不编制索引，而是转换为solr将使用Xpath编制索引的字段

我在SOLR是一个完全的新手，但我可以想象我应该能够做如下事情：

调用数据库索引URL

在SOLR中注册一个过滤器，它获取每个记录并将其转换为多个字段

如果您有任何信息，谢谢。

这取决于您想要的用例。HTML和XML一样，不是一个平面数据结构。您希望如何在Solr文档中表示HTML？您从HTML中捕获了哪些“字段”？另外，您提到了避免数据重复，这是关系数据库更好的功能。最后，一旦你为HTML建立了索引，你想用它做什么？我想提取特定的XPath，并根据每个db记录将它们保存为solr文档。我试图避免的是DB和SOLR中的数据相同，而我总是可以基于DB中的HTML记录重建SOLR索引。您打算如何为内容编制索引？对于DataImportHandler，还有一些限制，否则您必须在向Solr提交文档的代码中使用xpath和html解析（即预处理）。我通常建议您自己对其进行预处理，因为这样您会有更大的灵活性，但使用DIH是一种非常快速的入门方式。谢谢，您知道将项目逐个发布到SOLR是否是一个提高可伸缩性的好主意吗？