Hadoop 蜂箱或猪作为NETEZZA的替代品
在我的组织中,我们尝试使用蜂箱或猪作为替代品 主要目标:减少处理时间Hadoop 蜂箱或猪作为NETEZZA的替代品,hadoop,hive,apache-pig,netezza,bigdata,Hadoop,Hive,Apache Pig,Netezza,Bigdata,在我的组织中,我们尝试使用蜂箱或猪作为替代品 主要目标:减少处理时间 NETEZZA处理时间:90分钟 展望结束过程:30分钟内 流程如何工作: 进程即将维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录和new _表中有更新的记录。因此每天更新的记录都会添加到历史记录表中。该过程有非常复杂的存储过程(连接/删除/插入/更新) 在多个表上应用相同的过程。每个历史表都有几十亿条记录 我怀疑: 蜂箱/猪的性能是否比NETEZZ
NETEZZA处理时间:90分钟
展望结束过程:30分钟内 流程如何工作:
进程即将维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录和new _表中有更新的记录。因此每天更新的记录都会添加到历史记录表中。该过程有非常复杂的存储过程(连接/删除/插入/更新)
在多个表上应用相同的过程。每个历史表都有几十亿条记录 我怀疑:
- 蜂箱/猪的性能是否比NETEZZA好
- 配置单元中的UDF是存储过程的良好替代方案吗?因为我想为多个表创建通用进程(在这里我可以将表名作为参数传递)
- 对于具有多个条件、动态生成create语句和异常处理的真正复杂的联接,哪一种配置单元或PIG执行得更好李>