以文本文件和oracle表作为源代码的Hive、Pig或Python Mapreduce哪一个将提供最佳性能?
我有以下要求,不知道该选择哪一个来实现高性能。我不是java开发者。我喜欢蜂箱、猪和蟒蛇 我正在使用HDP2.1和tez引擎。数据源是文本文件(80GB)和Oracle表(15GB)。两者都是结构化数据。我听说Hive将适用于结构数据,Python map reduce流媒体概念也将比Hive&Pig具有更高的性能。请澄清 我正在使用Hive,原因是:以文本文件和oracle表作为源代码的Hive、Pig或Python Mapreduce哪一个将提供最佳性能?,python,hadoop,mapreduce,hive,apache-pig,Python,Hadoop,Mapreduce,Hive,Apache Pig,我有以下要求,不知道该选择哪一个来实现高性能。我不是java开发者。我喜欢蜂箱、猪和蟒蛇 我正在使用HDP2.1和tez引擎。数据源是文本文件(80GB)和Oracle表(15GB)。两者都是结构化数据。我听说Hive将适用于结构数据,Python map reduce流媒体概念也将比Hive&Pig具有更高的性能。请澄清 我正在使用Hive,原因是: 需要基于一列连接这两个源 由于数据量巨大,因此使用ORC格式表存储联接结果 文本文件名将用于生成一个输出列,该输出列已通过虚拟列概念输入\文件
- 需要基于一列连接这两个源李>
- 由于数据量巨大,因此使用ORC格式表存储联接结果
- 文本文件名将用于生成一个输出列,该输出列已通过虚拟列概念输入\文件\名称字段执行
- 在join之后,需要对每一行执行一些算术运算,并通过pythonudf执行这些运算