Amazon web services Apache Drill使用S3数据源时速度异常慢？_Amazon Web Services_Amazon S3_Apache Drill

Amazon web services Apache Drill使用S3数据源时速度异常慢？

amazon-web-services amazon-s3

Amazon web services Apache Drill使用S3数据源时速度异常慢？,amazon-web-services,amazon-s3,apache-drill,Amazon Web Services,Amazon S3,Apache Drill,我正在尝试将ApacheDrill与S3 bucket一起使用，但速度非常慢我有大约20000个JSON文件。我可以在几秒钟内从本地获取结果，例如： > select count(*) from dfs.`/path/to/my/files/*.json`; 少于2秒后返回尝试对S3存储桶中完全相同的文件运行完全相同的查询，即使在10分钟后也无法完成： > select count(*) from s3.`releases`; 为什么会这样？我认为演练的重点在于它在大数据集上

我正在尝试将ApacheDrill与S3 bucket一起使用，但速度非常慢

我有大约20000个JSON文件。我可以在几秒钟内从本地获取结果，例如：

> select count(*) from dfs.`/path/to/my/files/*.json`;

少于2秒后返回

尝试对S3存储桶中完全相同的文件运行完全相同的查询，即使在10分钟后也无法完成：

> select count(*) from s3.`releases`;

为什么会这样？我认为演练的重点在于它在大数据集上的速度很快

我的S3连接本身是正常的，例如，

SHOW files

在合理的时间内显示我的可用文件夹，并且我的网络连接也没有问题

这并不是对你问题的直接回答，但是如果你想查询s3 bucket，并且你有一个大的数据集，你应该看看它。

s3不是一个文件系统！我知道S3不是一个文件系统。然而，从演练文档中，我假设我可以使用它作为演练的快速数据源-但可能不行？为什么你期望它会是快速数据源？我猜我是个白痴。我认为这个练习会让它变快。我会继续说AWS雅典娜在这种情况下值得一看