如何将hadoop集群与应用服务器集成?

如何将hadoop集群与应用服务器集成?,hadoop,integration,hbase,backend,Hadoop,Integration,Hbase,Backend,我有各种应用程序服务器(例如web应用程序),我也一直在使用hadoop和Hbase、Impala、Hive等。我可以使用命令行或使用web界面(如Hue)获得我想要的结果 现在,如何将Hadoop作为后端集成到当前的应用程序中,以取代MySQL、MSSQL、Oracle等后端解决方案 p、 我知道很多都是使用hadoop进行批处理的,但HBase确实提供了一些近乎实时的分析。即使是批处理,我也希望让用户开始一些分析,然后返回并在我自己的前端应用程序中查看结果。一个常见的模式有很多变化,包括使用

我有各种应用程序服务器(例如web应用程序),我也一直在使用hadoop和Hbase、Impala、Hive等。我可以使用命令行或使用web界面(如Hue)获得我想要的结果

现在,如何将Hadoop作为后端集成到当前的应用程序中,以取代MySQL、MSSQL、Oracle等后端解决方案


p、 我知道很多都是使用hadoop进行批处理的,但HBase确实提供了一些近乎实时的分析。即使是批处理,我也希望让用户开始一些分析,然后返回并在我自己的前端应用程序中查看结果。

一个常见的模式有很多变化,包括使用Hadoop工作流对新摄取的数据反复执行(或Storm拓扑或仅是Kafka消费者)处理数据并将其缓存在NoSQL数据库中。如果希望以更细粒度存储结果,可以使用Cassandra或HBase之类的工具;如果希望获得更粗粒度的结果,可以使用elasticsearch或mongoDB。然后,当一个请求进入您的web API层时,您的逻辑可以从缓存数据库中提取最新的、必要的数据,可以选择将其转换为正确的格式,应用任何最后一分钟的计算,并将数据作为JSON对象返回给客户端。

每个框架都提供了多个接口和自己的API,它们彼此不兼容。看一看,哪一个使使用多个数据库(RDBMS和NoSQL)变得容易。这里(,)有一些关于Spring数据的书


我没有关注Spring数据,所以不确定它周围的社区有多活跃。也许有人可以对此进行补充。

您能否详细说明有哪些解决方案可以让我从web API层(如Php或Perl等)与HBase/Impala/Hive进行接口。我了解了Thrift的一些内容,但有没有通用的中间层允许与多种技术进行对话?它是否找到了实现这一点的方法。我也被困在这里。我知道每个工具是如何工作的。但我正在寻找从web应用程序(php/java)连接它们的方法。