Hadoop 蜂箱或猪作为NETEZZA的替代品

Hadoop 蜂箱或猪作为NETEZZA的替代品,hadoop,hive,apache-pig,netezza,bigdata,Hadoop,Hive,Apache Pig,Netezza,Bigdata,在我的组织中,我们尝试使用蜂箱或猪作为替代品 主要目标:减少处理时间 NETEZZA处理时间:90分钟 展望结束过程:30分钟内 流程如何工作: 进程即将维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录和new _表中有更新的记录。因此每天更新的记录都会添加到历史记录表中。该过程有非常复杂的存储过程(连接/删除/插入/更新) 在多个表上应用相同的过程。每个历史表都有几十亿条记录 我怀疑: 蜂箱/猪的性能是否比NETEZZ

在我的组织中,我们尝试使用蜂箱或猪作为替代品

主要目标:减少处理时间
NETEZZA处理时间:90分钟
展望结束过程:30分钟内

流程如何工作:
进程即将维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录和new _表中有更新的记录。因此每天更新的记录都会添加到历史记录表中。该过程有非常复杂的存储过程(连接/删除/插入/更新)
在多个表上应用相同的过程。每个历史表都有几十亿条记录

我怀疑:

  • 蜂箱/猪的性能是否比NETEZZA好
  • 配置单元中的UDF是存储过程的良好替代方案吗?因为我想为多个表创建通用进程(在这里我可以将表名作为参数传递)
  • 对于具有多个条件、动态生成create语句和异常处理的真正复杂的联接,哪一种配置单元或PIG执行得更好
使用Hadoop上Netezza的impala,尝试Kudu进行实时和批处理,或者使用HBase进行实时和批处理,但您可以使用impala查询HBase

使用Hadoop上Netezza的impala,尝试Kudu进行实时和批处理,或者使用HBase进行实时和批处理,但是您可以使用impala查询HBase

UDF不是存储过程;这是一个函数。蜂巢和猪都不擅长连接。即使是简单的。King Games有一个有趣的参考:>>他们将ETL从配置单元迁移到分析数据库(目前为Exasol),因为它根本不起作用。至于“动态生成create语句和异常处理”,我认为Pig或配置单元对这两个方面都没有很好的支持。至于UDF,Pig也有UDF。他们的表现更好吗?这实际上取决于您如何努力优化工作负载。您要处理多少数据?您有多少台机器?UDF不是存储过程;这是一个函数。蜂巢和猪都不擅长连接。即使是简单的。King Games有一个有趣的参考:>>他们将ETL从配置单元迁移到分析数据库(目前为Exasol),因为它根本不起作用。至于“动态生成create语句和异常处理”,我认为Pig或配置单元对这两个方面都没有很好的支持。至于UDF,Pig也有UDF。他们的表现更好吗?这实际上取决于您如何努力优化工作负载。您要处理多少数据?你们有多少台机器?