Stream Lucene:索引流(缓冲区中不可用)

Stream Lucene:索引流(缓冲区中不可用),stream,lucene,buffer,Stream,Lucene,Buffer,我想使用Lucene对正在读取的流进行索引。由于数据的大小和有限的RAM,我无法将整个内容放入缓冲区;相反,我希望Lucene从流中使用索引,等待更多数据可用,使用更多数据,直到EOF Lucene应该只缓冲它需要的内容:即,部分令牌,直到获得足够的字符来结束令牌 我能和Lucene一起做吗?如何传递?您应该能够将读取器传递给字段构造函数,而不是字符串。我相信这不需要将整个字段读入内存(我还没有对此进行大量测试)。您将无法存储该字段,但如果无论如何都无法将其加载到内存中,为什么要这样做 然而,我

我想使用Lucene对正在读取的流进行索引。由于数据的大小和有限的RAM,我无法将整个内容放入缓冲区;相反,我希望Lucene从流中使用索引,等待更多数据可用,使用更多数据,直到EOF

Lucene应该只缓冲它需要的内容:即,部分令牌,直到获得足够的字符来结束令牌


我能和Lucene一起做吗?如何传递?

您应该能够将
读取器
传递给字段构造函数,而不是
字符串
。我相信这不需要将整个字段读入内存(我还没有对此进行大量测试)。您将无法存储该字段,但如果无论如何都无法将其加载到内存中,为什么要这样做

然而,我不相信有任何方法一次只能读取部分标记。我相信您需要能够以绝对最小的速度将每个令牌加载到内存中。如果您的令牌太大以至于溢出可用内存,您可能需要重新考虑您的分析方案