Hadoop hive、pig和map之间的差异减少了用例

Hadoop hive、pig和map之间的差异减少了用例,hadoop,mapreduce,hive,apache-pig,Hadoop,Mapreduce,Hive,Apache Pig,地图缩小、蜂巢、猪之间的差异 pig:它是一种数据流语言,它可以处理任何基本用于将半结构化、非结构化数据转换为结构化的数据,以便可以使用窗口功能等在hive advance分析中使用 配置单元:处理结构数据并提供sql类型的查询语言 我知道在后端,pig和hive都使用map-reduces 我知道MapReduce对于程序员来说是一个很好的工具,对于sql来说是hive或者pig 我只是想知道我们在蜂巢、猪和地图上有没有具体的使用案例 基本上,我们决定必须在这里使用pig-hive-here,

地图缩小、蜂巢、猪之间的差异

pig:它是一种数据流语言,它可以处理任何基本用于将半结构化、非结构化数据转换为结构化的数据,以便可以使用窗口功能等在hive advance分析中使用

配置单元:处理结构数据并提供sql类型的查询语言

我知道在后端,pig和hive都使用map-reduces

我知道MapReduce对于程序员来说是一个很好的工具,对于sql来说是hive或者pig

我只是想知道我们在蜂巢、猪和地图上有没有具体的使用案例


基本上,我们决定必须在这里使用pig-hive-here,或者必须使用map-reduce。

map-reduce:比pig或hive具有更好的性能,但需要更多的开发时间

PIg:与map相比,开发时间更短,但性能较差


Hve:SQL类型语言,具有一些很好的特性,如分区和bucketing,以提高读取性能。此外,hive在读取时强制执行模式

Pig用于格式化非结构化/半结构化数据格式。假设您的数据中有一个与Hive时间戳格式不同的时间戳。您可以使用pigUDF转换该时间戳并格式化数据。这只是一个示例来解释。您可以使用Pig做更多的事情


Hive基本上用于结构化数据。这可能不适用于非结构化数据。在转换为Mapreduce作业时,这需要更多的时间来执行。我建议您使用比Hive快得多的impala。

Pig是一种数据流语言。这意味着您不能使用if语句或循环。 如果需要大量重复,最好学习mapreduce

您可以通过将pig嵌入到python脚本中来解决这个问题,但这需要更长的时间,因为它必须在循环的每次迭代中加载所有jar文件

基本上,它归结为你花了多少时间做原型,而你有多少生产工作。 如果你是数据科学家或分析师,你的大部分工作都是需要大量原型的新项目。这意味着您关心快速获得结果。那么你更喜欢猪或蜂房。 如果您是开发团队中的一员,那么您希望基于商定的方法构建健壮的代码,而不需要进行测试,然后您会选择mapreduce


有像Cloudera这样的公司提供了Pig、Hive和其他Hadoop工具包,因此您不必在两者之间进行选择。

Map Reduce是Hadoop的内部组件,其他Pig和Hive是Hadoop生态系统,这意味着在Hadoop上运行。mapreduce、pig和hive的目的都是以不同的方式处理大量数据

Mapreduce:apache实现了它。高度推荐使用java(高度推荐)、pyghon、ruby和其他编程语言来处理整个数据、消耗时间和所需的编程技能。使用mapper和reducer函数对总数据进行聚合和排序。Hadoop默认使用它

Hive:Facebook实现了它。大多数分析人员特别使用此工具来分析数据,尤其是结构数据。后端此配置单元工具使用mapreduce进行处理。在内部配置单元使用名为HQL的特殊语言,它是SQL语言的子集。谁在SQL中表现出色,他们就可以使用Hive。强烈推荐用于面向数据仓库的项目。很难处理非结构化数据,尤其是无模式的数据

清管器:
Pig是一种脚本语言,由Yahoo实现。主要是pig可以处理任何类型的数据,无论是结构化数据还是非结构化数据。这意味着,对于卫星生成的数据、实时事件、无模式数据等流式数据,它是非常值得推荐的。Pig首先加载数据,然后程序员根据数据编写程序,使其结构化。谁是编程语言专家,他们会选择这个Hadoop生态系统

how map reduce将比pig或hive具有更好的性能,例如,您必须加入数据,因此编写map reduce非常有效,因为您没有太多选择。假设您有两个大表要连接,它们无法放入内存中,那么如何在map-reduce中进行连接并不完全正确,map-reduce比Pig或Hive具有更高的性能。但我们可以说,map-reduce的水平比猪和蜂巢低。所以它允许更大的灵活性,但它需要更多的代码和时间来编写。我已经在我的问题中提到了这些信息,基本上我正在寻找特定的用例副本