<img src="//i.stack.imgur.com/RUiNP.png" height="16" width="18" alt="" class="sponsor tag img">elasticsearch 如何以小时为间隔读取大型数据集_<img Src="//i.stack.imgur.com/RUiNP.png" Height="16" Width="18" Alt="" Class="sponsor Tag Img">elasticsearch_Workflow_Bigdata_Apache Kafka

elasticsearch 如何以小时为间隔读取大型数据集

workflow apache-kafka

elasticsearch 如何以小时为间隔读取大型数据集,elasticsearch,workflow,bigdata,apache-kafka,elasticsearch,Workflow,Bigdata,Apache Kafka,例如，我有3000万条记录，存储在我们的数据存储中。然后我想每隔2小时随机读取其中的一小部分：例如，我想每2小时读取100万条随机记录，并对它们采取措施。解决这类问题的最佳方法是什么我应该把3000万读出来，然后储存在一个例如，Kafak，然后每2小时运行一个作业来读取排队。还是我应该把我的查询设计成100万记录，然后有一个作业，每2小时运行一次查询，得到数据集，然后在处理后删除它们？有适合这种情况的开源框架吗？只有当总数据就绪时，我如何安排作业谢谢， Chen有3000万条记录

例如，我有3000万条记录，存储在我们的数据存储中。然后我想每隔2小时随机读取其中的一小部分：例如，我想每2小时读取100万条随机记录，并对它们采取措施。解决这类问题的最佳方法是什么

我应该把3000万读出来，然后储存在一个例如，Kafak，然后每2小时运行一个作业来读取排队。还是我应该把我的查询设计成100万记录，然后有一个作业，每2小时运行一次查询，得到数据集，然后在处理后删除它们？有适合这种情况的开源框架吗？只有当总数据就绪时，我如何安排作业

谢谢，

Chen

有3000万条记录，这应该可以通过发送一个使用种子随机分数的查询来实现，您可以使用任何Elasticsearch API（如Java、Python、C等）自行翻页。我知道我可以通过在ES中翻页来读取它们。问题更多的是关于工作流的系统设计：查询结果应该存储在哪里，如何安排工作流等。