elasticsearch 如何以小时为间隔读取大型数据集,elasticsearch,workflow,bigdata,apache-kafka,elasticsearch,Workflow,Bigdata,Apache Kafka" /> elasticsearch 如何以小时为间隔读取大型数据集,elasticsearch,workflow,bigdata,apache-kafka,elasticsearch,Workflow,Bigdata,Apache Kafka" />

elasticsearch 如何以小时为间隔读取大型数据集

elasticsearch 如何以小时为间隔读取大型数据集,elasticsearch,workflow,bigdata,apache-kafka,elasticsearch,Workflow,Bigdata,Apache Kafka,例如,我有3000万条记录,存储在我们的数据存储中。然后我想每隔2小时随机读取其中的一小部分:例如,我想每2小时读取100万条随机记录,并对它们采取措施。解决这类问题的最佳方法是什么 我应该把3000万读出来,然后储存在一个 例如,Kafak,然后每2小时运行一个作业来读取 排队。 还是我应该把我的查询设计成100万 记录,然后有一个作业,每2小时运行一次查询,得到 数据集,然后在处理后删除它们? 有适合这种情况的开源框架吗?只有当总数据就绪时,我如何安排作业 谢谢, Chen有3000万条记录

例如,我有3000万条记录,存储在我们的数据存储中。然后我想每隔2小时随机读取其中的一小部分:例如,我想每2小时读取100万条随机记录,并对它们采取措施。解决这类问题的最佳方法是什么

我应该把3000万读出来,然后储存在一个 例如,Kafak,然后每2小时运行一个作业来读取 排队。 还是我应该把我的查询设计成100万 记录,然后有一个作业,每2小时运行一次查询,得到 数据集,然后在处理后删除它们? 有适合这种情况的开源框架吗?只有当总数据就绪时,我如何安排作业

谢谢,
Chen

有3000万条记录,这应该可以通过发送一个使用种子随机分数的查询来实现,您可以使用任何Elasticsearch API(如Java、Python、C等)自行翻页。我知道我可以通过在ES中翻页来读取它们。问题更多的是关于工作流的系统设计:查询结果应该存储在哪里,如何安排工作流等。