Amazon s3 德鲁伊从s3摄取δ
我正在对德鲁伊进行POC。我正在从s3接收数据—使用默认配置,289MB数据需要约7分钟。现在我已经设置了“maxNumConcurrentSubTasks”:2和“appendToExisting”:true。当尝试从s3中摄取相同的数据到德鲁伊中时,所花费的时间几乎与上面相同。我期望的时间要短得多,因为我没有更新任何数据,我正在尝试附加数据,而不是覆盖完整的数据Amazon s3 德鲁伊从s3摄取δ,amazon-s3,druid,superset,Amazon S3,Druid,Superset,我正在对德鲁伊进行POC。我正在从s3接收数据—使用默认配置,289MB数据需要约7分钟。现在我已经设置了“maxNumConcurrentSubTasks”:2和“appendToExisting”:true。当尝试从s3中摄取相同的数据到德鲁伊中时,所花费的时间几乎与上面相同。我期望的时间要短得多,因为我没有更新任何数据,我正在尝试附加数据,而不是覆盖完整的数据 我是否误解了在德鲁伊中附加的概念,是否有从s3摄取增量的最佳方法?任何潜在客户都将不胜感激。在控制台中,检查子任务是否同时运行。你
我是否误解了在德鲁伊中附加的概念,是否有从s3摄取增量的最佳方法?任何潜在客户都将不胜感激。在控制台中,检查子任务是否同时运行。你可能需要修改你的
druid.worker.capacity
,告诉德鲁伊有更多的核心可供摄取
看
值得检查此文档的更新及其工作方式。
还有本有用的教程:
令人敬畏的Itai已经写了一篇关于保留的博文(无论如何这是一篇好文章),但其中有一点关于delta摄取。。。我从未试过他的把戏,但你可以做一些实验,让我们都知道你的发现:D:D