Performance Hadoop是否适合为50GB数据集中的100字节记录提供服务？_Performance_Hadoop

Performance Hadoop是否适合为50GB数据集中的100字节记录提供服务？

performance hadoop

Performance Hadoop是否适合为50GB数据集中的100字节记录提供服务？,performance,hadoop,Performance,Hadoop,我们有一个问题，Hadoop是否适合于不需要运行应用程序，但需要非常快速地读取和写入少量数据的简单任务要求能够以每秒30的速度写入大约100-200字节长的消息和两个索引，同时能够以大约每秒10的速度读取（通过这两个索引进行搜索）。读取查询必须非常快-每个查询最多100-200毫秒，并且返回很少的匹配记录总数据量预计将达到50-100 gb，并通过删除较旧的记录（类似于删除超过14天的记录的每日任务）保持此速率正如您所看到的，总数据量并没有那么大，但我们担心Hadoop的搜索速度可能会比我

我们有一个问题，Hadoop是否适合于不需要运行应用程序，但需要非常快速地读取和写入少量数据的简单任务

要求能够以每秒30的速度写入大约100-200字节长的消息和两个索引，同时能够以大约每秒10的速度读取（通过这两个索引进行搜索）。读取查询必须非常快-每个查询最多100-200毫秒，并且返回很少的匹配记录

总数据量预计将达到50-100 gb，并通过删除较旧的记录（类似于删除超过14天的记录的每日任务）保持此速率

正如您所看到的，总数据量并没有那么大，但我们担心Hadoop的搜索速度可能会比我们需要的慢

Hadoop可以解决这个问题吗

谢谢

Nik

单独使用Hadoop，在提供许多小数据段方面非常糟糕。然而，HBase是一个类似于索引表数据库的系统，旨在运行在Hadoop之上。它非常擅长提供小的索引文件。我会把它作为一个解决方案来研究

另一个需要注意的问题是，将数据导入HDFS或HBase并非易事。它会大大降低集群速度，因此如果您选择Hadoop，那么您还必须解决如何将这些75GB的数据转换为HDF，以便Hadoop能够接触到它们。

正如Sam所指出的，HBase是可以满足您需求的Hadoop堆栈解决方案。但是，如果这些是您对数据的唯一要求，我不会使用Hadoop

您可以使用其他NoSQL解决方案，如MongoDB或CouchDB，甚至MySQL或Postgres

这听起来像是数据量仍然完全在传统RDBMS（SQL Server、Oracle、MySQL、Postgres等）可接受的范围内