如何使用Xpath和SOLR为HTML中的特定标记编制索引

如何使用Xpath和SOLR为HTML中的特定标记编制索引,solr,Solr,为了避免数据重复,我打算只存储一个已爬网的HTML文件,但在索引时,通过SOLR中的过滤器或函数使用Xpath对HTML进行解析 html本身不编制索引,而是转换为solr将使用Xpath编制索引的字段 我在SOLR是一个完全的新手,但我可以想象我应该能够做如下事情: 调用数据库索引URL 在SOLR中注册一个过滤器,它获取每个记录并将其转换为多个字段 如果您有任何信息,谢谢。这取决于您想要的用例。HTML和XML一样,不是一个平面数据结构。您希望如何在Solr文档中表示HTML?您从HTML中

为了避免数据重复,我打算只存储一个已爬网的HTML文件,但在索引时,通过SOLR中的过滤器或函数使用Xpath对HTML进行解析

html本身不编制索引,而是转换为solr将使用Xpath编制索引的字段

我在SOLR是一个完全的新手,但我可以想象我应该能够做如下事情:

  • 调用数据库索引URL
  • 在SOLR中注册一个过滤器,它获取每个记录并将其转换为多个字段

  • 如果您有任何信息,谢谢。

    这取决于您想要的用例。HTML和XML一样,不是一个平面数据结构。您希望如何在Solr文档中表示HTML?您从HTML中捕获了哪些“字段”?另外,您提到了避免数据重复,这是关系数据库更好的功能。最后,一旦你为HTML建立了索引,你想用它做什么?我想提取特定的XPath,并根据每个db记录将它们保存为solr文档。我试图避免的是DB和SOLR中的数据相同,而我总是可以基于DB中的HTML记录重建SOLR索引。您打算如何为内容编制索引?对于DataImportHandler,还有一些限制,否则您必须在向Solr提交文档的代码中使用xpath和html解析(即预处理)。我通常建议您自己对其进行预处理,因为这样您会有更大的灵活性,但使用DIH是一种非常快速的入门方式。谢谢,您知道将项目逐个发布到SOLR是否是一个提高可伸缩性的好主意吗?