Apache Solr 7.3.1中的部分索引

Apache Solr 7.3.1中的部分索引,apache,indexing,solr,Apache,Indexing,Solr,我使用solr 7.3.1为文档编制索引。现在,它正在为引用位置(相当大,接近1 TB)中的每个文档编制索引。信息技术 为整个文件夹编制索引需要3-4天。文档每小时都会被编辑、添加和删除。保持solr索引更新的最佳方法是什么?创建一个小型应用程序,用于侦听存储文档的文档层次结构中的文件系统事件 这样,您可以在文档写入磁盘后立即将其发送到Solr。具体如何做到这一点取决于您的操作系统以及您可以用什么语言编写代码。Linux下有用于inotify的钩子,您可以通过inotifywait和bash使用

我使用solr 7.3.1为文档编制索引。现在,它正在为引用位置(相当大,接近1 TB)中的每个文档编制索引。信息技术
为整个文件夹编制索引需要3-4天。文档每小时都会被编辑、添加和删除。保持solr索引更新的最佳方法是什么?

创建一个小型应用程序,用于侦听存储文档的文档层次结构中的文件系统事件

这样,您可以在文档写入磁盘后立即将其发送到Solr。具体如何做到这一点取决于您的操作系统以及您可以用什么语言编写代码。Linux下有用于
inotify
的钩子,您可以通过
inotifywait
bash
使用,也可以将
inotify
用作

这样,您可以在任何更新的文档写入磁盘后立即对其进行索引,并且可以在常规初始索引操作运行时执行此操作


但是,如果每个文档每小时都会更改(这意味着您必须在一小时内、每小时内为每个文档编制索引),则您必须扩展您的基础结构,以便能够在一小时内尽可能快地为内容编制索引,但具体如何做将取决于许多因素(例如文档类型、可用库、项目中的其他限制等),这可能超出了这里可以恰当回答的范围。

谢谢您的回复@MatsLindh。有一点需要澄清的是,在我的系统中,并不是每个文档都每小时更新一次。因此,如果某个特定文件的最后更新日期大于同一文件的solr索引时间戳,solr索引是否可以自动进行n solr将从上一个索引中删除该文件,然后将其重新索引,否则它将跳到下一个文件?您必须自己编写逻辑来处理该文件,但这是一种可能性,当然。我可能仍然会尝试看看您是否可以使用inotifywait或类似的工具,因为这将更加有效。我在windows上使用c#。files位于通过局域网上的网络驱动器映射的windows PC文件夹中。因此,很可能我必须使用接近FileSystemWatcher的工具来跟踪映射目录中的更改。但问题是,solr是否有任何api来允许这种自动条件索引???据我阅读的官方文档所知我还没有找到任何东西。如果你能在这方面指导我,那将非常有帮助。不,你必须自己编写应用程序。