Lucene中的tweet索引

Lucene中的tweet索引,lucene,Lucene,目前,我有很多tweet想要索引,但是每个tweet都在一个小文档中。如果我将它们聚合为每个文件100条tweet,是否可以使用Lucene对它们进行索引,但同时维护tweet ID(文件中的ID列) 例如,它的每一行如下所示: TweetID | TweetText 谢谢, Andy.Solr将这些字段称为“多值字段”,它们的实现方式是通过偏移量。基本上,您可以为每条tweet分配200字节,然后将第n条tweet的偏移量设置为从200*偏移量开始 搜索时,您可以返回匹配tweet的偏移量,

目前,我有很多tweet想要索引,但是每个tweet都在一个小文档中。如果我将它们聚合为每个文件100条tweet,是否可以使用Lucene对它们进行索引,但同时维护tweet ID(文件中的ID列)

例如,它的每一行如下所示:

TweetID | TweetText
谢谢, Andy.

Solr将这些字段称为“多值字段”,它们的实现方式是通过偏移量。基本上,您可以为每条tweet分配200字节,然后将第n条tweet的偏移量设置为从200*偏移量开始


搜索时,您可以返回匹配tweet的偏移量,并从中找出匹配的tweet。

请将其重新格式化为问题。到底是什么给你带来了困难,其他人又能如何帮助你?谢谢。假设我为TweetID保留了20个数字,为Tweet文本保留了140个字符=160字节+其他信息保留了40字节,这就是你的意思吗?是的,你可以保留你认为必要的任何数量。Lucene使用稀疏存储格式,因此您可以将偏移量设置为您喜欢的任何形式,而无需支付存储罚款。