Streaming 在ApacheDruid中重新索引多个数据

Streaming 在ApacheDruid中重新索引多个数据,streaming,druid,Streaming,Druid,我想从德鲁伊那里得到最后一个小时和一天的聚合结果。我使用的大多数查询都包括临时查询。我想问两个问题 1-在不汇总的情况下摄取所有原始数据是个好主意吗?如果没有汇总,我是否可以多次重新索引数据?。例如一个任务重新索引数据以查找每小时的唯一用户计数,另一个任务重新索引相同的数据以查找每10分钟的总计数 2-如果启用了汇总功能以查找一些基本摘要,这将阻止从原始数据中获取信息(因为它已汇总)。当我想重新索引数据时,可能找不到一些有用的信息。在流模式下启用汇总的良好实践是否有效 是否启用汇总取决于您的数据

我想从德鲁伊那里得到最后一个小时和一天的聚合结果。我使用的大多数查询都包括临时查询。我想问两个问题

1-在不汇总的情况下摄取所有原始数据是个好主意吗?如果没有汇总,我是否可以多次重新索引数据?。例如一个任务重新索引数据以查找每小时的唯一用户计数,另一个任务重新索引相同的数据以查找每10分钟的总计数

2-如果启用了汇总功能以查找一些基本摘要,这将阻止从原始数据中获取信息(因为它已汇总)。当我想重新索引数据时,可能找不到一些有用的信息。在流模式下启用汇总的良好实践是否有效

  • 是否启用汇总取决于您的数据大小。通常我们 将数据保存在德鲁伊之外,以便在 不同的数据源。如果你有一个合理的数据大小 您可以将细分粒度保持为小时/天/周/月 确保每个分段不超过理想分段大小( 建议500 MB)。并将查询粒度设置为索引处的none 时间,所以您可以在查询时执行此唯一和总计数聚合 时间

    实际上,您可以在索引时将查询粒度设置为 10分钟,它仍然可以在1小时内为您提供uniques和总计数 1小时内收到

    此外,如果需要,可以在多个数据源中为数据编制索引 你在问。如果要为同一数据源重新编制数据索引,则 将创建重复项并扭曲结果

  • 这取决于您的用例。汇总将帮助您提高性能 以及德鲁伊集群中的空间优化。理想情况下,我建议 以可重复使用的格式将存档数据分开,以便重复使用