Lucene中的tweet索引_Lucene - Fatal编程技术网

Lucene中的tweet索引

lucene

Lucene中的tweet索引,lucene,Lucene,目前，我有很多tweet想要索引，但是每个tweet都在一个小文档中。如果我将它们聚合为每个文件100条tweet，是否可以使用Lucene对它们进行索引，但同时维护tweet ID（文件中的ID列）例如，它的每一行如下所示： TweetID | TweetText 谢谢， Andy.Solr将这些字段称为“多值字段”，它们的实现方式是通过偏移量。基本上，您可以为每条tweet分配200字节，然后将第n条tweet的偏移量设置为从200*偏移量开始搜索时，您可以返回匹配tweet的偏移量，

目前，我有很多tweet想要索引，但是每个tweet都在一个小文档中。如果我将它们聚合为每个文件100条tweet，是否可以使用Lucene对它们进行索引，但同时维护tweet ID（文件中的ID列）

例如，它的每一行如下所示：

TweetID | TweetText

谢谢， Andy.

Solr将这些字段称为“多值字段”，它们的实现方式是通过偏移量。基本上，您可以为每条tweet分配200字节，然后将第n条tweet的偏移量设置为从200*偏移量开始

搜索时，您可以返回匹配tweet的偏移量，并从中找出匹配的tweet。

请将其重新格式化为问题。到底是什么给你带来了困难，其他人又能如何帮助你？谢谢。假设我为TweetID保留了20个数字，为Tweet文本保留了140个字符=160字节+其他信息保留了40字节，这就是你的意思吗？是的，你可以保留你认为必要的任何数量。Lucene使用稀疏存储格式，因此您可以将偏移量设置为您喜欢的任何形式，而无需支付存储罚款。