Indexing Druid索引任务中的分段粒度;确切含义&;索引过程中的含义

Indexing Druid索引任务中的分段粒度;确切含义&;索引过程中的含义,indexing,batch-processing,segment,druid,granularity,Indexing,Batch Processing,Segment,Druid,Granularity,我还是不太明白德鲁伊的“粒度”。此页面非常模糊:。它继续提到分段粒度,但更多地讨论了间隔(在第一段中) 无论如何,在这一点上,我的数据量并没有那么大。该页面提到300mb-700mb是段的“理想”大小。实际上,我可以将一周的数据放在一个片段中。这就是为什么我想在索引任务json中将segmentGranularity设置为“week”: "granularitySpec" : { "type" : "uniform", "segmentGranularity" : "week

我还是不太明白德鲁伊的“粒度”。此页面非常模糊:。它继续提到分段粒度,但更多地讨论了间隔(在第一段中)

无论如何,在这一点上,我的数据量并没有那么大。该页面提到300mb-700mb是段的“理想”大小。实际上,我可以将一周的数据放在一个片段中。这就是为什么我想在索引任务json中将segmentGranularity设置为“week”:

  "granularitySpec" : {
    "type" : "uniform",
    "segmentGranularity" : "week",
    "queryGranularity" : "none",
    "intervals" : ["2015-09-12/2015-09-13"]
  },
但是,我计划每一小时做一次批量索引(通常这只会在同一天内(重新)处理数据)。这就是为什么我在上面的“间隔”字段中只放了一个间隔,跨越一天

我的问题是:当粒度设置为周(而不是日)时,该如何工作?它会为整个数据段重建多维数据集吗(一周)?这是我不想要的;我只想重建一天的立方体

谢谢,
Raka

是段粒度周期指定在特定段中应保留的持续时间数据。如果您的段设置为“每周”,则每个段都将保存特定周的数据

现在,如果您打算每小时运行一次摄取任务,那么整个片段就会重新构建,如果您只添加了当天的数据,那么通常最好将片段粒度保持在“天”

但是如果你的数据很小,你可以很好地将段粒度保持在“周”,那么德鲁伊是否重建段就无关紧要了

由于您的数据集很小,您可以查看宁静服务器,它可以动态地摄取数据,而无需批量摄取。它应该适合您的用例