HBase Mapreducer,使用TableReducer时的最佳还原数

HBase Mapreducer,使用TableReducer时的最佳还原数,mapreduce,connection,hbase,reducers,Mapreduce,Connection,Hbase,Reducers,我们正在使用Map reduce将数据写入HBase。因为我们有一些格式化要做,我们通过扩展TableReducer实现了我们自己的reducer。这个定制的reducer在生产和开发环境中的行为不同。获取以下错误 错误:org.apache.hadoop.hbase.client.retriesexhaustedwithdetails异常:失败659次操作:regiontobusyexception:659次, 从中,我了解到冲洗没有正确进行。然而,在dev环境中同样可以正常工作 除了上面的选

我们正在使用Map reduce将数据写入HBase。因为我们有一些格式化要做,我们通过扩展TableReducer实现了我们自己的reducer。这个定制的reducer在生产和开发环境中的行为不同。获取以下错误

错误:org.apache.hadoop.hbase.client.retriesexhaustedwithdetails异常:失败659次操作:regiontobusyexception:659次,

从中,我了解到冲洗没有正确进行。然而,在dev环境中同样可以正常工作

除了上面的选项之外,我觉得配置还原器的数量也可能会影响发送到区域服务器的数据量

我们正在使用salt跨越区域服务器之间的行键。到目前为止,salt为2000万台,区域服务器数量为60台。选择的salt是否应与区域服务器的数量相等,以便均匀地跨越记录?如果没有,那么在将数据加载到Hbase时,如何确定还原数的最佳值


另外,一般来说,客户端允许与Hbase交互的最大连接数是多少。在这里,我们使用的是API提供的Map reducer,但一般来说,我们处理到Hbase的客户端连接,最大数量的客户端连接可以发挥重要作用。提前感谢您的帮助

Hbase mapreduce API本身将决定还原程序的数量等于区域服务器计数,代码库证实了这一点。所以,问题是,我们写我们的映射reduce,我们给reducer的数量一个值,这与默认值不同。因此,看起来,这里的默认值shoyuld运行良好,除非我们有特定的要求。

Hbase mapreduce API本身将决定还原器的数量等于区域服务器计数。

,代码库证实了这一点。所以,问题是,我们写我们的映射reduce,我们给reducer的数量一个值,这与默认值不同。看起来,这里的默认值shoyuld运行良好,除非我们有特定的要求