分布式模式下的apachedrill_Apache_Hive_Mapr_Apache Drill

分布式模式下的apachedrill

apache hive

分布式模式下的apachedrill,apache,hive,mapr,apache-drill,Apache,Hive,Mapr,Apache Drill,我开始探索在半结构化数据上运行SQL的需求。我已经用zookeeper设置了一个4节点的训练集群。对它的实际工作原理没有什么疑问当我在分布式模式下运行Drill时，使用dfs（本地文件系统），也就是说，我在其中一个节点上有一个1GB的Json文件（比如n1）。我可以通过从任何节点（n1、n2、n3、n4）启动sqlline来运行查询，并且只在n1上有日期。我的问题是 a。是否在所有节点上执行查询？i、例如，将通过将数据分发到其他节点n2、n3n4来并行化查询执行 b。如果否，通过在所有节点n

我开始探索在半结构化数据上运行SQL的需求。我已经用zookeeper设置了一个4节点的训练集群。对它的实际工作原理没有什么疑问

当我在分布式模式下运行Drill时，使用dfs（本地文件系统），也就是说，我在其中一个节点上有一个1GB的Json文件（比如n1）。我可以通过从任何节点（n1、n2、n3、n4）启动sqlline来运行查询，并且只在n1上有日期。我的问题是

a。是否在所有节点上执行查询？i、例如，将通过将数据分发到其他节点n2、n3n4来并行化查询执行

b。如果否，通过在所有节点n2、n3、n4上复制相同的文件将有助于利用Drill的MPP体系结构

是否在所有节点上执行查询？也许，节点必须运行Drill，并且您要查询的数据必须位于分布式文件系统（如HDFS）上。Drill不分发文件

运行钻取服务（安装钻取的位置）的节点参与查询工作。仅从文件中加载查询中显示的列。Drill尝试将查询中的任何筛选器推送到叶节点，以防止节点发送未通过筛选器的行。Drill在查询执行期间最大化数据位置，而无需根据在网络上或节点之间移动数据。第二节讨论并行化。当片段中的记录数达到100000时，Drill并行化操作

Drill根据元数据执行所有查询。因此，如果您的目标以分布式格式跨节点存储，这同样适用于Drill。在其他情况下，它将仅在特定节点上运行

假设钻孔指向一个RDBMS源，它在一个节点上执行查询