Hadoop 面向大数据的关系数据库管理系统

Hadoop 面向大数据的关系数据库管理系统,hadoop,hive,hdfs,Hadoop,Hive,Hdfs,我们有一个场景,csv(>900 GB)数据文件存储在HDFS文件系统中,在该系统上定义了一个配置单元0.14表。我们需要对数据执行一些分析查询,并对数据执行更新。基本上是一种基于这种数据量的RDBMS系统。任何人都可以提出RDBMS系统(更新、选择)的潜在选项吗?记住性能是一个重要的标准。PostgreSQL是从EDL加载数据的一个很好的选项。您可以将热数据放在那里以执行一些快速查询。PostgreSQL是从EDL加载数据的一个很好的选择。您可以将热数据放在那里以执行一些快速查询。Hive支持

我们有一个场景,csv(>900 GB)数据文件存储在HDFS文件系统中,在该系统上定义了一个配置单元0.14表。我们需要对数据执行一些分析查询,并对数据执行更新。基本上是一种基于这种数据量的RDBMS系统。任何人都可以提出RDBMS系统(更新、选择)的潜在选项吗?记住性能是一个重要的标准。

PostgreSQL是从EDL加载数据的一个很好的选项。您可以将热数据放在那里以执行一些快速查询。

PostgreSQL是从EDL加载数据的一个很好的选择。您可以将热数据放在那里以执行一些快速查询。

Hive支持更新和分析查询。你想用HIVE做的任何特定的事情你都无法完成?@ PyySuPurkaJiHiver的确支持更新,但是如果你考虑了这么多的数据,代价会很高。这正是我们面临的问题。我们希望尽可能快地尝试并保持更新,因为可能会有多个系统派生出某些需要更新到配置单元表中数据的度量。配置单元支持更新和分析查询。你想用HIVE做的任何特定的事情你都无法完成?@ PyySuPurkaJiHiver的确支持更新,但是如果你考虑了这么多的数据,代价会很高。这正是我们面临的问题。我们希望尽可能快地尝试并保持更新,因为可能有多个系统可能会导出某些指标,需要更新到配置单元表中的数据。这看起来有点困难,因为我们正在尝试每天加载批处理数据。现在,每天的批处理数据量可能接近300GB+。将这些数据输入博士后本身就是一项耗时的工作。我们正在大数据世界寻找某种类型的RDBMS,它们可以作为开源提供。这看起来有点困难,因为我们正在尝试每天加载批处理数据。现在,每天的批处理数据量可能接近300GB+。将这些数据输入博士后本身就是一项耗时的工作。我们正在寻找大数据世界上的某种RDBMS,它是开源的