Mysql 我们可以在Sqoop中控制$CONDITIONS吗?
$Conditions根据其自身决定的占位符以不同的拆分方式打断自由形式查询。 比方说,我们有一个查询,它给出了1000条记录的结果。默认情况下,它将被$CONDITIONS分解为4个带边界条件的不同查询 (1250)(251500)(501750)和(7511000)Mysql 我们可以在Sqoop中控制$CONDITIONS吗?,mysql,hadoop,sqoop,Mysql,Hadoop,Sqoop,$Conditions根据其自身决定的占位符以不同的拆分方式打断自由形式查询。 比方说,我们有一个查询,它给出了1000条记录的结果。默认情况下,它将被$CONDITIONS分解为4个带边界条件的不同查询 (1250)(251500)(501750)和(7511000) 根据我们的要求,我们可以做些什么来实现查询分割?您不能选择查询分区偏移量。你可以控制两件事: --用于创建拆分的边界查询 --num mappers用于控制拆分数量 很明显,——被列分割 为每次拆分选择边界听起来是个好主意。
根据我们的要求,我们可以做些什么来实现查询分割?您不能选择查询分区偏移量。你可以控制两件事:
--用于创建拆分的边界查询
用于控制拆分数量--num mappers
——被
列分割
为每次拆分选择边界听起来是个好主意。但从数据中获得这样的洞察是非常昂贵的
您如何知道分割点?
通过迭代该特定列的整个数据并创建一些逻辑来创建理想分区
但您可以比此迭代更快地运行sqoop作业(使用默认分区)
我想这就是人们对这个功能不太感兴趣的原因。您不能选择查询分区偏移量。你可以控制两件事:
--用于创建拆分的边界查询
用于控制拆分数量--num mappers
——被
列分割
为每次拆分选择边界听起来是个好主意。但从数据中获得这样的洞察是非常昂贵的
您如何知道分割点?
通过迭代该特定列的整个数据并创建一些逻辑来创建理想分区
但您可以比此迭代更快地运行sqoop作业(使用默认分区)
我想这就是人们对这个功能不太感兴趣的原因。您想实现的是查询中的偏移和限制吗?@Yxn我想了解如何根据拆分条件和$CONDITIONS来确定映射者的数量。据我所知,split by给出元素数,$CONDITIONS将查询分割,并给出它根据数据元素决定的映射器数。请纠正我,关于偏移量和限制,这是我下一个关心的问题。您是否正在尝试实现查询中的偏移量和限制?@Yxn我正在尝试了解如何根据拆分条件和$CONDITIONS确定映射者的数量。据我所知,split by给出元素数,$CONDITIONS将查询分割,并给出它根据数据元素决定的映射器数。请纠正我,关于偏移和限制,这是我下一个关心的问题。很好的解释谢谢@syadav:)很好的解释谢谢@syadav:)