Hive 蜂巢、黑斑羚和直线的区别

Hive 蜂巢、黑斑羚和直线的区别,hive,impala,beeline,Hive,Impala,Beeline,我是Hadoop生态系统工具的新手。 有人能帮我理解蜂巢、直线和蜂巢的区别吗 提前谢谢 Cloudera Impala是Cloudera的开源大规模并行处理(MPP)SQL查询引擎。Hortonworks和Amazon不支持黑斑羚更新:Hortonworks与Cloudera合并,新公司名称为Cloudera。和。MapR还支持Impala。黑斑羚不在引擎盖下使用Map Reduce,其工作速度比蜂巢快 ApacheHive是建立在Hadoop之上的数据库,用于提供数据摘要、查询和分析。所有Ha

我是Hadoop生态系统工具的新手。 有人能帮我理解蜂巢、直线和蜂巢的区别吗


提前谢谢

Cloudera Impala是Cloudera的开源大规模并行处理(MPP)SQL查询引擎。Hortonworks和Amazon不支持黑斑羚更新:Hortonworks与Cloudera合并,新公司名称为Cloudera。和。MapR还支持Impala。黑斑羚不在引擎盖下使用Map Reduce,其工作速度比蜂巢快

ApacheHive是建立在Hadoop之上的数据库,用于提供数据摘要、查询和分析。所有Hadoop供应商都支持。非常可靠,几乎可以无限扩展,可以处理非常大的数据,在引擎盖下使用Map Reduce框架原语,即使配置为在Tez执行引擎上运行。可以使用Tez或MR(在Hive2.x中已弃用)执行引擎


Beeline是一个蜂巢客户端。请参见此处:

ApacheHive:

1] Apache Hive是基于Hadoop平台构建的数据仓库基础设施,用于执行数据密集型任务,如查询、分析、处理和可视化。
2] 配置单元在编译时生成查询表达式。
3] 每个配置单元查询都存在“冷启动”问题
4] Hive将要执行的查询转换为包含开销的MapReduce作业。
5] Hive是一种更通用、多功能和可插拔的语言。
6] 对于兼容性和速度同等重要的升级项目。蜂巢是一个理想的选择

Cloudera黑斑羚:

1] Impala是程序员在HDFS和Apache HBase上运行查询的最佳选择,因为它不需要移动或转换数据。
2] Impala使用llvm为“大循环”生成运行时代码。
3] Impala避免了启动开销,因为守护进程本身在启动时启动,始终准备好处理查询。
4] 黑斑羚通过大规模并行处理快速响应。
5] 黑斑羚被用来释放其野蛮的处理能力,并给出闪电般的分析结果。
6] 黑斑羚是启动新项目的理想选择

直线:

1] 配置单元CLI直接连接到配置单元驱动程序,并要求配置单元安装在与客户端相同的计算机上。
2] 但是,Beeline连接到HiveServer2,不需要在与客户端相同的计算机上安装配置单元库。
3] Beeline是一种瘦客户端,它也使用Hive JDBC驱动程序,但通过HiveServer2执行查询,HiveServer2允许多个并发客户端连接并支持身份验证。
4] Cloudera的Sentry安全性通过HiveServer2而不是HiveServer1工作,HiveCLI使用HiveServer1。因此,hive虽然命令行不会遵循Setry的策略。根据cloudera文档,您不应该使用Hive CLI和WebHCat。使用beeline或impala销售代替。
5] 使用直线连接:url是一个jdbc连接字符串,指向hiveServer2主机。
终端>直线-u url-n用户名-p密码
终端>直线
直线>!连接jdbc:hive2://HiveServer2Host:Port