Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何从HDFS公开REST服务?_Rest_Hadoop_Hive_Hdfs_Impala - Fatal编程技术网

如何从HDFS公开REST服务?

如何从HDFS公开REST服务?,rest,hadoop,hive,hdfs,impala,Rest,Hadoop,Hive,Hdfs,Impala,我的项目需要公开来自HDFS的REST服务,目前我们正在HDFS上处理大量数据,我们正在使用MR jobs将HDFS中的所有数据存储到Apache Impala数据库,以满足我们的报告需求 目前,我们有一个REST端点访问Impala数据库,但问题是Impala数据库没有使用HDFS的最新数据进行完全更新 我们定期运行MR jobs来更新Impala数据库,但我们知道MR将因此消耗大量时间,因此我们无法对HDFS执行实时查询 用例/场景:好的,让我详细解释一下;我们在hadoop上构建了一个名为

我的项目需要公开来自HDFS的REST服务,目前我们正在HDFS上处理大量数据,我们正在使用MR jobs将HDFS中的所有数据存储到Apache Impala数据库,以满足我们的报告需求

目前,我们有一个REST端点访问Impala数据库,但问题是Impala数据库没有使用HDFS的最新数据进行完全更新

我们定期运行MR jobs来更新Impala数据库,但我们知道MR将因此消耗大量时间,因此我们无法对HDFS执行实时查询

用例/场景:好的,让我详细解释一下;我们在hadoop上构建了一个名为“风管”的应用程序,该应用程序处理大量数据,并在HDFS上为每次运行创建单独的归档文件(序列化的avro文件)。我们还有另一个应用程序(名称为avro To Impala)将这些avro归档文件作为输入,使用MR作业处理它们,并为每个“风管”运行在Impala上填充新模式。此工具读取AVRO文件,并在Impala模式上创建和填充表。为了在外部(REST端点)公开数据,我们在Impala数据库上进行中继。在这种情况下,每当我们有“管道”的输出最终更新数据库时,我们显式运行“Avro to Impala”由于REST端点将过时或旧数据返回给web服务的使用者,因此此处理需要很长时间

有人能为这类问题提出解决方案吗


非常感谢

我不太明白你的问题是什么。。。“将所有数据从HDFS存储到Impala数据库”>>但Impala数据库也将其数据文件存储在HDFS上!“乔布斯先生”的目的是什么:计算总量?重复数据消除?从行格式转换为列格式,即拼花地板?“定期运行MR作业以更新Impala数据库…MR将消耗大量时间…数据库未使用最新数据完全更新…无法执行实时查询”>>是的,这就是为什么在2013年引入Lambda体系结构。现在更流行的是全流式处理,处理器可以被查询以提供聚合的当前值(例如,参见Kafka Streams)。@SamsonScharfrichter,谢谢你的更新,我编辑了问题并详细阐述了用例,你能看看吗?