Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在本地模式下运行Hadoop进行生产_Hadoop_Mapreduce_Apache Pig_Bigdata_Distributed Computing - Fatal编程技术网

在本地模式下运行Hadoop进行生产

在本地模式下运行Hadoop进行生产,hadoop,mapreduce,apache-pig,bigdata,distributed-computing,Hadoop,Mapreduce,Apache Pig,Bigdata,Distributed Computing,我已经在Hadoop上工作了很长一段时间了,我们都知道我们使用本地模式来构建脚本/作业,并在本地测试它们。 但如果我们有这样一个场景,我们的一些客户有小数据集,一些客户有大数据集,我们不想编写两个业务逻辑的代码集,一个用于本地运行模式,另一个用于分布式运行模式,那么该如何进行呢 生产部署的一种方法是为具有较小数据集的客户提供Hadoop作业/Pig/MR作业的本地模式运行,并为具有较大数据集的客户提供分布式设置模式 我的问题是: 在生产环境中设置本地模式Hadoop(因为数据量不是很大),这是个

我已经在Hadoop上工作了很长一段时间了,我们都知道我们使用本地模式来构建脚本/作业,并在本地测试它们。 但如果我们有这样一个场景,我们的一些客户有小数据集,一些客户有大数据集,我们不想编写两个业务逻辑的代码集,一个用于本地运行模式,另一个用于分布式运行模式,那么该如何进行呢

生产部署的一种方法是为具有较小数据集的客户提供Hadoop作业/Pig/MR作业的本地模式运行,并为具有较大数据集的客户提供分布式设置模式

我的问题是: 在生产环境中设置本地模式Hadoop(因为数据量不是很大),这是个好主意吗

如果生产中的小数据集选择伪分布式模式,我需要考虑每种方法(本地模式和伪分布式模式)面临的限制,以及在生产中部署相同的方法是否存在任何风险。如果有人遇到此类设计挑战,请提供帮助

请多多指教


感谢

我们的一些产品版本以伪分布式模式发货,甚至以本地模式发货,以防磁盘速度非常慢和CPU资源不足。这些配置通常安装在虚拟机上,因此我们向客户推荐的是定时VM备份。这在一定程度上促进了复苏

重要的是告知客户性能和可靠性的内在权衡,同时鼓励他们将当前配置视为未来可扩展性的正确架构,如果他们对功能和较小规模的总体结果感到满意的话

我们有客户在伪分布式模式下运行,2年内发生1次计划外停机事件——这是硬件层面的断电。由于非正常关机,导致一些数据丢失,但范围有限


我们为这些安装所做的一件事是安排每天在非高峰时间由cron触发的HBase中的自动主要压缩。

感谢分享您的方法。我们看待它的方式是,我们负责硬件成本,并且是客户总体解决方案价格的一部分。因此,如果不需要,我们不想投资于不必要的硬件,同时,如果在本地模式下运行存在风险,我们也不想投资于不必要的硬件。因此,缓慢的硬件和低资源对我们来说不是问题,这是我们正在努力消除的风险。对于本地模式设置中的任何限制(除了可伸缩性),如本地模式中的开放bug等,请就小数据提供建议,…!!::)我无法提供打开的bug列表。我们的堆栈可能与您的不同。我们必须调整默认设置,以确保我们的堆栈适用于我们的用例,例如避免扫描中出现oom等。用例可能不同,但这听起来很有趣,。请详细说明一下,在允许hadoop的本地模式在生产环境中运行之前,您检查了哪些设置。这是非常重要的一点…抱歉,收集我们对服务器端和客户端的属性文件所做的所有更改(例如HBase client)将花费大量时间。您必须查看您的特定用例。我只是想分享一个事实,即我们在生产中使用伪分布式模式进行小规模安装。如果我有限的经验对你有价值,请确认并投票。感谢分享你在这个主题上的知识。!!