如何从HDFS公开REST服务？_Rest_Hadoop_Hive_Hdfs_Impala

如何从HDFS公开REST服务？

rest hadoop hive

如何从HDFS公开REST服务？,rest,hadoop,hive,hdfs,impala,Rest,Hadoop,Hive,Hdfs,Impala,我的项目需要公开来自HDFS的REST服务，目前我们正在HDFS上处理大量数据，我们正在使用MR jobs将HDFS中的所有数据存储到Apache Impala数据库，以满足我们的报告需求目前，我们有一个REST端点访问Impala数据库，但问题是Impala数据库没有使用HDFS的最新数据进行完全更新我们定期运行MR jobs来更新Impala数据库，但我们知道MR将因此消耗大量时间，因此我们无法对HDFS执行实时查询用例/场景：好的，让我详细解释一下；我们在hadoop上构建了一个名为

我的项目需要公开来自HDFS的REST服务，目前我们正在HDFS上处理大量数据，我们正在使用MR jobs将HDFS中的所有数据存储到Apache Impala数据库，以满足我们的报告需求

目前，我们有一个REST端点访问Impala数据库，但问题是Impala数据库没有使用HDFS的最新数据进行完全更新

我们定期运行MR jobs来更新Impala数据库，但我们知道MR将因此消耗大量时间，因此我们无法对HDFS执行实时查询

用例/场景：好的，让我详细解释一下；我们在hadoop上构建了一个名为“风管”的应用程序，该应用程序处理大量数据，并在HDFS上为每次运行创建单独的归档文件（序列化的avro文件）。我们还有另一个应用程序（名称为avro To Impala）将这些avro归档文件作为输入，使用MR作业处理它们，并为每个“风管”运行在Impala上填充新模式。此工具读取AVRO文件，并在Impala模式上创建和填充表。为了在外部（REST端点）公开数据，我们在Impala数据库上进行中继。在这种情况下，每当我们有“管道”的输出最终更新数据库时，我们显式运行“Avro to Impala”由于REST端点将过时或旧数据返回给web服务的使用者，因此此处理需要很长时间

有人能为这类问题提出解决方案吗

非常感谢

我不太明白你的问题是什么。。。“将所有数据从HDFS存储到Impala数据库”>>但Impala数据库也将其数据文件存储在HDFS上！“乔布斯先生”的目的是什么：计算总量？重复数据消除？从行格式转换为列格式，即拼花地板？“定期运行MR作业以更新Impala数据库…MR将消耗大量时间…数据库未使用最新数据完全更新…无法执行实时查询”>>是的，这就是为什么在2013年引入Lambda体系结构。现在更流行的是全流式处理，处理器可以被查询以提供聚合的当前值（例如，参见Kafka Streams）。@SamsonScharfrichter，谢谢你的更新，我编辑了问题并详细阐述了用例，你能看看吗？