分布式模式下的apachedrill

分布式模式下的apachedrill,apache,hive,mapr,apache-drill,Apache,Hive,Mapr,Apache Drill,我开始探索在半结构化数据上运行SQL的需求。我已经用zookeeper设置了一个4节点的训练集群。对它的实际工作原理没有什么疑问 当我在分布式模式下运行Drill时,使用dfs(本地文件系统),也就是说,我在其中一个节点上有一个1GB的Json文件(比如n1)。我可以通过从任何节点(n1、n2、n3、n4)启动sqlline来运行查询,并且只在n1上有日期。我的问题是 a。是否在所有节点上执行查询?i、 例如,将通过将数据分发到其他节点n2、n3n4来并行化查询执行 b。如果否,通过在所有节点n

我开始探索在半结构化数据上运行SQL的需求。我已经用zookeeper设置了一个4节点的训练集群。对它的实际工作原理没有什么疑问

  • 当我在分布式模式下运行Drill时,使用dfs(本地文件系统),也就是说,我在其中一个节点上有一个1GB的Json文件(比如n1)。我可以通过从任何节点(n1、n2、n3、n4)启动sqlline来运行查询,并且只在n1上有日期。我的问题是

    a。是否在所有节点上执行查询?i、 例如,将通过将数据分发到其他节点n2、n3n4来并行化查询执行

    b。如果否,通过在所有节点n2、n3、n4上复制相同的文件将有助于利用Drill的MPP体系结构


  • 是否在所有节点上执行查询? 也许,节点必须运行Drill,并且您要查询的数据必须位于分布式文件系统(如HDFS)上。Drill不分发文件


    运行钻取服务(安装钻取的位置)的节点参与查询工作。仅从文件中加载查询中显示的列。Drill尝试将查询中的任何筛选器推送到叶节点,以防止节点发送未通过筛选器的行。Drill在查询执行期间最大化数据位置,而无需根据在网络上或节点之间移动数据。第二节讨论并行化。当片段中的记录数达到100000时,Drill并行化操作

    Drill根据元数据执行所有查询。因此,如果您的目标以分布式格式跨节点存储,这同样适用于Drill。在其他情况下,它将仅在特定节点上运行

    假设钻孔指向一个RDBMS源,它在一个节点上执行查询