Hadoop 蜂箱或猪作为NETEZZA的替代品_Hadoop_Hive_Apache Pig_Netezza_Bigdata

Hadoop 蜂箱或猪作为NETEZZA的替代品

hadoop hive apache-pig

Hadoop 蜂箱或猪作为NETEZZA的替代品,hadoop,hive,apache-pig,netezza,bigdata,Hadoop,Hive,Apache Pig,Netezza,Bigdata,在我的组织中，我们尝试使用蜂箱或猪作为替代品主要目标：减少处理时间 NETEZZA处理时间：90分钟展望结束过程：30分钟内流程如何工作：进程即将维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录和new _表中有更新的记录。因此每天更新的记录都会添加到历史记录表中。该过程有非常复杂的存储过程（连接/删除/插入/更新）在多个表上应用相同的过程。每个历史表都有几十亿条记录我怀疑：蜂箱/猪的性能是否比NETEZZ

在我的组织中，我们尝试使用蜂箱或猪作为替代品

主要目标：减少处理时间
NETEZZA处理时间：90分钟
展望结束过程：30分钟内

流程如何工作：
进程即将维护增量历史记录。有两个表history\u table和new\u table。history table维护总历史记录和new _表中有更新的记录。因此每天更新的记录都会添加到历史记录表中。该过程有非常复杂的存储过程（连接/删除/插入/更新）
在多个表上应用相同的过程。每个历史表都有几十亿条记录

我怀疑：

蜂箱/猪的性能是否比NETEZZA好
配置单元中的UDF是存储过程的良好替代方案吗？因为我想为多个表创建通用进程（在这里我可以将表名作为参数传递）
对于具有多个条件、动态生成create语句和异常处理的真正复杂的联接，哪一种配置单元或PIG执行得更好

使用Hadoop上Netezza的impala，尝试Kudu进行实时和批处理，或者使用HBase进行实时和批处理，但您可以使用impala查询HBase

使用Hadoop上Netezza的impala，尝试Kudu进行实时和批处理，或者使用HBase进行实时和批处理，但是您可以使用impala查询HBase

UDF不是存储过程；这是一个函数。蜂巢和猪都不擅长连接。即使是简单的。King Games有一个有趣的参考：>>他们将ETL从配置单元迁移到分析数据库（目前为Exasol），因为它根本不起作用。至于“动态生成create语句和异常处理”，我认为Pig或配置单元对这两个方面都没有很好的支持。至于UDF，Pig也有UDF。他们的表现更好吗？这实际上取决于您如何努力优化工作负载。您要处理多少数据？您有多少台机器？UDF不是存储过程；这是一个函数。蜂巢和猪都不擅长连接。即使是简单的。King Games有一个有趣的参考：>>他们将ETL从配置单元迁移到分析数据库（目前为Exasol），因为它根本不起作用。至于“动态生成create语句和异常处理”，我认为Pig或配置单元对这两个方面都没有很好的支持。至于UDF，Pig也有UDF。他们的表现更好吗？这实际上取决于您如何努力优化工作负载。您要处理多少数据？你们有多少台机器？