Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Performance Hadoop是否适合为50GB数据集中的100字节记录提供服务?_Performance_Hadoop - Fatal编程技术网

Performance Hadoop是否适合为50GB数据集中的100字节记录提供服务?

Performance Hadoop是否适合为50GB数据集中的100字节记录提供服务?,performance,hadoop,Performance,Hadoop,我们有一个问题,Hadoop是否适合于不需要运行应用程序,但需要非常快速地读取和写入少量数据的简单任务 要求能够以每秒30的速度写入大约100-200字节长的消息和两个索引,同时能够以大约每秒10的速度读取(通过这两个索引进行搜索)。读取查询必须非常快-每个查询最多100-200毫秒,并且返回很少的匹配记录 总数据量预计将达到50-100 gb,并通过删除较旧的记录(类似于删除超过14天的记录的每日任务)保持此速率 正如您所看到的,总数据量并没有那么大,但我们担心Hadoop的搜索速度可能会比我

我们有一个问题,Hadoop是否适合于不需要运行应用程序,但需要非常快速地读取和写入少量数据的简单任务

要求能够以每秒30的速度写入大约100-200字节长的消息和两个索引,同时能够以大约每秒10的速度读取(通过这两个索引进行搜索)。读取查询必须非常快-每个查询最多100-200毫秒,并且返回很少的匹配记录

总数据量预计将达到50-100 gb,并通过删除较旧的记录(类似于删除超过14天的记录的每日任务)保持此速率

正如您所看到的,总数据量并没有那么大,但我们担心Hadoop的搜索速度可能会比我们需要的慢

Hadoop可以解决这个问题吗

谢谢
Nik

单独使用Hadoop,在提供许多小数据段方面非常糟糕。然而,HBase是一个类似于索引表数据库的系统,旨在运行在Hadoop之上。它非常擅长提供小的索引文件。我会把它作为一个解决方案来研究


另一个需要注意的问题是,将数据导入HDFS或HBase并非易事。它会大大降低集群速度,因此如果您选择Hadoop,那么您还必须解决如何将这些75GB的数据转换为HDF,以便Hadoop能够接触到它们。

正如Sam所指出的,HBase是可以满足您需求的Hadoop堆栈解决方案。但是,如果这些是您对数据的唯一要求,我不会使用Hadoop


您可以使用其他NoSQL解决方案,如MongoDB或CouchDB,甚至MySQL或Postgres

这听起来像是数据量仍然完全在传统RDBMS(SQL Server、Oracle、MySQL、Postgres等)可接受的范围内