Indexing Druid索引任务中的分段粒度；确切含义&；索引过程中的含义_Indexing_Batch Processing_Segment_Druid_Granularity

Indexing Druid索引任务中的分段粒度；确切含义&；索引过程中的含义

indexing

Indexing Druid索引任务中的分段粒度；确切含义&；索引过程中的含义,indexing,batch-processing,segment,druid,granularity,Indexing,Batch Processing,Segment,Druid,Granularity,我还是不太明白德鲁伊的“粒度”。此页面非常模糊：。它继续提到分段粒度，但更多地讨论了间隔（在第一段中）无论如何，在这一点上，我的数据量并没有那么大。该页面提到300mb-700mb是段的“理想”大小。实际上，我可以将一周的数据放在一个片段中。这就是为什么我想在索引任务json中将segmentGranularity设置为“week”： "granularitySpec" : { "type" : "uniform", "segmentGranularity" : "week

我还是不太明白德鲁伊的“粒度”。此页面非常模糊：。它继续提到分段粒度，但更多地讨论了间隔（在第一段中）

无论如何，在这一点上，我的数据量并没有那么大。该页面提到300mb-700mb是段的“理想”大小。实际上，我可以将一周的数据放在一个片段中。这就是为什么我想在索引任务json中将segmentGranularity设置为“week”：

  "granularitySpec" : {
    "type" : "uniform",
    "segmentGranularity" : "week",
    "queryGranularity" : "none",
    "intervals" : ["2015-09-12/2015-09-13"]
  },

但是，我计划每一小时做一次批量索引（通常这只会在同一天内（重新）处理数据）。这就是为什么我在上面的“间隔”字段中只放了一个间隔，跨越一天

我的问题是：当粒度设置为周（而不是日）时，该如何工作？它会为整个数据段重建多维数据集吗（一周）？这是我不想要的；我只想重建一天的立方体

谢谢，

Raka

是段粒度周期指定在特定段中应保留的持续时间数据。如果您的段设置为“每周”，则每个段都将保存特定周的数据

现在，如果您打算每小时运行一次摄取任务，那么整个片段就会重新构建，如果您只添加了当天的数据，那么通常最好将片段粒度保持在“天”

但是如果你的数据很小，你可以很好地将段粒度保持在“周”，那么德鲁伊是否重建段就无关紧要了

由于您的数据集很小，您可以查看宁静服务器，它可以动态地摄取数据，而无需批量摄取。它应该适合您的用例