Hadoop 在这个用例中，什么是数据仓库_Hadoop_Mapreduce_Hive_Data Warehouse_Data Processing

Hadoop 在这个用例中，什么是数据仓库

hadoop mapreduce hive

Hadoop 在这个用例中，什么是数据仓库,hadoop,mapreduce,hive,data-warehouse,data-processing,Hadoop,Mapreduce,Hive,Data Warehouse,Data Processing,我试图找出数据仓库、集群数据处理和查询数据仓库的工具/基础设施之间的区别（在工具/服务/程序之间）因此，假设我有以下设置来为特定用例执行一些数据处理 Hadoop Cluster for Distributed Data processing Hive for providing infrastructure and Functions for querying data from a data warehouse My data sitting in an RDBMS or a NoSQL

我试图找出数据仓库、集群数据处理和查询数据仓库的工具/基础设施之间的区别（在工具/服务/程序之间）

因此，假设我有以下设置来为特定用例执行一些数据处理

Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database

在上面的示例中，数据仓库到底是什么？我天真的大脑认为这是RDBMS或NoSQL数据库，在上面的上下文中是数据仓库。但根据定义，数据仓库不是用于报告和数据分析的数据库吗？（定义不知羞耻地从维基百科盗取）。那么，我可以将传统的RDBMS/NoSQL数据库称为数据仓库吗？谢谢。

您不能将每个关系数据库系统称为数据仓库，因为数据仓库的主要功能之一是聚合来自多个数据库（具有不同模式）的数据。它通常是通过一个“”来完成的，允许组合多个维度和多个粒度

因为NoSQL数据库系统（基于图形或基于map reduce）是无模式的，所以它们确实可以存储来自不同模式的数据。此外，Map Reduce可用于聚合具有不同粒度的数据（例如，聚合每日数据以将其与每月数据进行比较）
多谢各位。那么我可以使用Neo4j或Mongo作为数据仓库吗？你还提到了地图缩小。您指的是算法还是像Hadoop这样的MapReduce实现？如果是这样的话，Hive适合它在哪里？如果我从一堆不同的RDBMS中提取数据并使用Hadoop集群进行处理，那么在这种情况下，数据仓库是什么？谢谢。我提到MapReduce是因为它在NoSQL框架中非常常见，并且是聚合不同粒度数据的好方法。有些数据存储有自己的实现（MongoDB、CouchDB），但没有什么可以阻止您使用外部实现（比如Hadoop）。数据仓库在哪里？一个简单的答案可能是：在何处存储异构数据，在何处均匀处理数据。是的，Hive绝对是实现这一点的方法之一。