Streaming 在ApacheDruid中重新索引多个数据_Streaming_Druid

Streaming 在ApacheDruid中重新索引多个数据

streaming

Streaming 在ApacheDruid中重新索引多个数据,streaming,druid,Streaming,Druid,我想从德鲁伊那里得到最后一个小时和一天的聚合结果。我使用的大多数查询都包括临时查询。我想问两个问题 1-在不汇总的情况下摄取所有原始数据是个好主意吗？如果没有汇总，我是否可以多次重新索引数据？。例如一个任务重新索引数据以查找每小时的唯一用户计数，另一个任务重新索引相同的数据以查找每10分钟的总计数 2-如果启用了汇总功能以查找一些基本摘要，这将阻止从原始数据中获取信息（因为它已汇总）。当我想重新索引数据时，可能找不到一些有用的信息。在流模式下启用汇总的良好实践是否有效是否启用汇总取决于您的数据

我想从德鲁伊那里得到最后一个小时和一天的聚合结果。我使用的大多数查询都包括临时查询。我想问两个问题

1-在不汇总的情况下摄取所有原始数据是个好主意吗？如果没有汇总，我是否可以多次重新索引数据？。例如一个任务重新索引数据以查找每小时的唯一用户计数，另一个任务重新索引相同的数据以查找每10分钟的总计数

2-如果启用了汇总功能以查找一些基本摘要，这将阻止从原始数据中获取信息（因为它已汇总）。当我想重新索引数据时，可能找不到一些有用的信息。在流模式下启用汇总的良好实践是否有效

是否启用汇总取决于您的数据大小。通常我们将数据保存在德鲁伊之外，以便在不同的数据源。如果你有一个合理的数据大小您可以将细分粒度保持为小时/天/周/月确保每个分段不超过理想分段大小( 建议500 MB）。并将查询粒度设置为索引处的none 时间，所以您可以在查询时执行此唯一和总计数聚合时间

实际上，您可以在索引时将查询粒度设置为 10分钟，它仍然可以在1小时内为您提供uniques和总计数 1小时内收到

此外，如果需要，可以在多个数据源中为数据编制索引你在问。如果要为同一数据源重新编制数据索引，则将创建重复项并扭曲结果

这取决于您的用例。汇总将帮助您提高性能以及德鲁伊集群中的空间优化。理想情况下，我建议以可重复使用的格式将存档数据分开，以便重复使用