Hadoop任务调度程序:容量与公平共享还是其他? 背景

Hadoop任务调度程序:容量与公平共享还是其他? 背景,hadoop,hadoop-plugins,scheduled-tasks,Hadoop,Hadoop Plugins,Scheduled Tasks,我的雇主正在逐步将我们的资源密集型ETL和后端处理逻辑从MySQL转移到Hadoop(dfs和hive)。目前,一切都还很小,可以管理(10个节点上有20 TB),但我们打算逐步增加集群大小 现在hadoop正被转移到生产应用中,它将成为一个更大的问题,即批量调度和在即席用户配置单元查询、每小时M/R进程之间共享集群,我相信最终会使用hbase。令人担忧的是,用户可能会提出一个幼稚的查询,该查询可能会运行不合理的时间(比如4小时),从而阻塞任务队列并产生潜在的基础设施负载不稳定 问题: 我公司的

我的雇主正在逐步将我们的资源密集型ETL和后端处理逻辑从MySQL转移到Hadoop(dfs和hive)。目前,一切都还很小,可以管理(10个节点上有20 TB),但我们打算逐步增加集群大小

现在hadoop正被转移到生产应用中,它将成为一个更大的问题,即批量调度和在即席用户配置单元查询、每小时M/R进程之间共享集群,我相信最终会使用hbase。令人担忧的是,用户可能会提出一个幼稚的查询,该查询可能会运行不合理的时间(比如4小时),从而阻塞任务队列并产生潜在的基础设施负载不稳定

问题: 我公司的另一部分已经被Flume的不成熟所烧毁,所以我的问题是,这两个已知的调度程序(Capacity&Fair)有多稳定,除了在赞助公司(Yahoo&Facebook)中的使用之外,它们是否在其他地方使用

编辑:背景信息


默认情况下,我们在装运CDH时启用了公平共享计划程序。非常稳定。

我花了一分钟才弄清楚你是谁:)