Indexing Solr索引文件删除html标记和垃圾内容表单索引

Indexing Solr索引文件删除html标记和垃圾内容表单索引,indexing,solr,lucene,Indexing,Solr,Lucene,我正在开发Solr6.5,我注意到我的索引文件大小随着内容的增加而不断增加。我使用了一个停止字文件,没有常用字被索引 我在索引中看到许多我不想索引的HTML标记,以及不应该索引的内容中的注释。如何找到这些文件并更新stopword txt来处理它们 我只为英文内容编制了索引,索引文件已经是30 GB,只有900万个文档。在编制索引时,您可以使用删除所有HTML内容 但900万个文档的30GB只是每个文档不到4kb,这其实并不算多。这些文档确实有一个固有的大小,因此只要您为它们编制索引,它们就会将

我正在开发Solr6.5,我注意到我的索引文件大小随着内容的增加而不断增加。我使用了一个停止字文件,没有常用字被索引

我在索引中看到许多我不想索引的HTML标记,以及不应该索引的内容中的注释。如何找到这些文件并更新stopword txt来处理它们

我只为英文内容编制了索引,索引文件已经是30 GB,只有900万个文档。

在编制索引时,您可以使用删除所有HTML内容

但900万个文档的30GB只是每个文档不到4kb,这其实并不算多。这些文档确实有一个固有的大小,因此只要您为它们编制索引,它们就会将数据添加到索引中