Amazon s3 德鲁伊从s3摄取δ_Amazon S3_Druid_Superset

Amazon s3 德鲁伊从s3摄取δ

amazon-s3

Amazon s3 德鲁伊从s3摄取δ,amazon-s3,druid,superset,Amazon S3,Druid,Superset,我正在对德鲁伊进行POC。我正在从s3接收数据—使用默认配置，289MB数据需要约7分钟。现在我已经设置了“maxNumConcurrentSubTasks”：2和“appendToExisting”：true。当尝试从s3中摄取相同的数据到德鲁伊中时，所花费的时间几乎与上面相同。我期望的时间要短得多，因为我没有更新任何数据，我正在尝试附加数据，而不是覆盖完整的数据我是否误解了在德鲁伊中附加的概念，是否有从s3摄取增量的最佳方法？任何潜在客户都将不胜感激。在控制台中，检查子任务是否同时运行。你

我正在对德鲁伊进行POC。我正在从s3接收数据—使用默认配置，289MB数据需要约7分钟。现在我已经设置了“maxNumConcurrentSubTasks”：2和“appendToExisting”：true。当尝试从s3中摄取相同的数据到德鲁伊中时，所花费的时间几乎与上面相同。我期望的时间要短得多，因为我没有更新任何数据，我正在尝试附加数据，而不是覆盖完整的数据

我是否误解了在德鲁伊中附加的概念，是否有从s3摄取增量的最佳方法？任何潜在客户都将不胜感激。

在控制台中，检查子任务是否同时运行。你可能需要修改你的

druid.worker.capacity

，告诉德鲁伊有更多的核心可供摄取

看

值得检查此文档的更新及其工作方式。

还有本有用的教程：

令人敬畏的Itai已经写了一篇关于保留的博文（无论如何这是一篇好文章），但其中有一点关于delta摄取。。。我从未试过他的把戏，但你可以做一些实验，让我们都知道你的发现：D:D