Hadoop 在这个用例中,什么是数据仓库

Hadoop 在这个用例中,什么是数据仓库,hadoop,mapreduce,hive,data-warehouse,data-processing,Hadoop,Mapreduce,Hive,Data Warehouse,Data Processing,我试图找出数据仓库、集群数据处理和查询数据仓库的工具/基础设施之间的区别(在工具/服务/程序之间) 因此,假设我有以下设置来为特定用例执行一些数据处理 Hadoop Cluster for Distributed Data processing Hive for providing infrastructure and Functions for querying data from a data warehouse My data sitting in an RDBMS or a NoSQL

我试图找出数据仓库、集群数据处理和查询数据仓库的工具/基础设施之间的区别(在工具/服务/程序之间)

因此,假设我有以下设置来为特定用例执行一些数据处理

Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database

在上面的示例中,数据仓库到底是什么?我天真的大脑认为这是RDBMS或NoSQL数据库,在上面的上下文中是数据仓库。但根据定义,数据仓库不是用于报告和数据分析的数据库吗?(定义不知羞耻地从维基百科盗取)。那么,我可以将传统的RDBMS/NoSQL数据库称为数据仓库吗?谢谢。

您不能将每个关系数据库系统称为数据仓库,因为数据仓库的主要功能之一是聚合来自多个数据库(具有不同模式)的数据。它通常是通过一个“”来完成的,允许组合多个维度和多个粒度


因为NoSQL数据库系统(基于图形或基于map reduce)是无模式的,所以它们确实可以存储来自不同模式的数据。此外,Map Reduce可用于聚合具有不同粒度的数据(例如,聚合每日数据以将其与每月数据进行比较)

多谢各位。那么我可以使用Neo4j或Mongo作为数据仓库吗?你还提到了地图缩小。您指的是算法还是像Hadoop这样的MapReduce实现?如果是这样的话,Hive适合它在哪里?如果我从一堆不同的RDBMS中提取数据并使用Hadoop集群进行处理,那么在这种情况下,数据仓库是什么?谢谢。我提到MapReduce是因为它在NoSQL框架中非常常见,并且是聚合不同粒度数据的好方法。有些数据存储有自己的实现(MongoDB、CouchDB),但没有什么可以阻止您使用外部实现(比如Hadoop)。数据仓库在哪里?一个简单的答案可能是:在何处存储异构数据,在何处均匀处理数据。是的,Hive绝对是实现这一点的方法之一。