Hadoop HBase是伪分布式还是完全分布式模式?

Hadoop HBase是伪分布式还是完全分布式模式?,hadoop,hbase,hdfs,nutch,Hadoop,Hbase,Hdfs,Nutch,我在开发环境中有一台linux(ubuntu)服务器,我计划在生产环境中也使用一台服务器 我有从Nutch 2.2.1生成的爬网数据,我想将其存储在HBase 0.90.6中。因为,我不打算使用多台机器(我只有一台服务器),在我的情况下,哪种HBase模式最适合生产环境-伪分布式还是完全分布式?伪分布式模式会更好,因为在独立模式下使用本地FS。这意味着您无法利用HDFS+MR组合提供的并行性。伪分布式模式会更好,因为在独立模式下使用本地FS。这意味着您无法利用HDFS+MR组合提供的并行性。谢谢

我在开发环境中有一台linux(ubuntu)服务器,我计划在生产环境中也使用一台服务器


我有从Nutch 2.2.1生成的爬网数据,我想将其存储在HBase 0.90.6中。因为,我不打算使用多台机器(我只有一台服务器),在我的情况下,哪种HBase模式最适合生产环境-伪分布式还是完全分布式?

伪分布式模式会更好,因为在独立模式下使用本地FS。这意味着您无法利用HDFS+MR组合提供的并行性。

伪分布式模式会更好,因为在独立模式下使用本地FS。这意味着您无法利用HDFS+MR组合提供的并行性。

谢谢Tariq!我有点困惑。您的意思是说,如果我使用伪分布式模式,我可以利用HDFS+MapReduce的并行性吗?实际上,您会在运行伪集群的机器上看到一些并发性。默认设置是tasktracker最多可以并行运行两个map和reduce任务。尝试通过mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum增加,看看是否有显著差异。再次感谢!我试试看。我的公司客户只为我们提供了一台用于生产环境的linux服务器,我认为在不久的将来不会改变这一点。伪分布式模式对于生产环境是否足够好?或者是否需要迁移到完全分布式模式?注意:我根本不打算使用集群,一点也不。很抱歉,你们公司做了一个错误的决定。从这个开始并没有什么坏处。但一旦你的数据和处理需求上升,你肯定会需要更多的果汁:)谢谢塔里克!我有点困惑。您的意思是说,如果我使用伪分布式模式,我可以利用HDFS+MapReduce的并行性吗?实际上,您会在运行伪集群的机器上看到一些并发性。默认设置是tasktracker最多可以并行运行两个map和reduce任务。尝试通过mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum增加,看看是否有显著差异。再次感谢!我试试看。我的公司客户只为我们提供了一台用于生产环境的linux服务器,我认为在不久的将来不会改变这一点。伪分布式模式对于生产环境是否足够好?或者是否需要迁移到完全分布式模式?注意:我根本不打算使用集群,一点也不。很抱歉,你们公司做了一个错误的决定。从这个开始并没有什么坏处。但一旦您的数据和处理需求提高,您肯定会需要更多的果汁:)