Amazon web services Apache Drill使用S3数据源时速度异常慢?

Amazon web services Apache Drill使用S3数据源时速度异常慢?,amazon-web-services,amazon-s3,apache-drill,Amazon Web Services,Amazon S3,Apache Drill,我正在尝试将ApacheDrill与S3 bucket一起使用,但速度非常慢 我有大约20000个JSON文件。我可以在几秒钟内从本地获取结果,例如: > select count(*) from dfs.`/path/to/my/files/*.json`; 少于2秒后返回 尝试对S3存储桶中完全相同的文件运行完全相同的查询,即使在10分钟后也无法完成: > select count(*) from s3.`releases`; 为什么会这样?我认为演练的重点在于它在大数据集上

我正在尝试将ApacheDrill与S3 bucket一起使用,但速度非常慢

我有大约20000个JSON文件。我可以在几秒钟内从本地获取结果,例如:

> select count(*) from dfs.`/path/to/my/files/*.json`;
少于2秒后返回

尝试对S3存储桶中完全相同的文件运行完全相同的查询,即使在10分钟后也无法完成:

> select count(*) from s3.`releases`;
为什么会这样?我认为演练的重点在于它在大数据集上的速度很快


我的S3连接本身是正常的,例如,
SHOW files
在合理的时间内显示我的可用文件夹,并且我的网络连接也没有问题

这并不是对你问题的直接回答,但是如果你想查询s3 bucket,并且你有一个大的数据集,你应该看看它。

s3不是一个文件系统!我知道S3不是一个文件系统。然而,从演练文档中,我假设我可以使用它作为演练的快速数据源-但可能不行?为什么你期望它会是快速数据源?我猜我是个白痴。我认为这个练习会让它变快。我会继续说AWS雅典娜在这种情况下值得一看