使用amp拆分的Teradata Hadoop连接器

使用amp拆分的Teradata Hadoop连接器,teradata,hortonworks-data-platform,Teradata,Hortonworks Data Platform,我使用TDCH将数据从Teradata拉到hadoop集群。 在TDCH中,我使用了按安培分割选项。我有120安培的Teradata系统,在我的TDCH脚本中,我定义了30个映射器。因此,每个将从4安培中提取数据。我得到如下查询:- 'Select "NAME" ,"ADRESS" FROM FROM tdampcopy(ON "TABLENAME" USING AMPList(136,137,138,139)) AS THCALIAS1 . 它正在创建30个带有30个会话ID的查询。当他们在

我使用TDCH将数据从Teradata拉到hadoop集群。 在TDCH中,我使用了按安培分割选项。我有120安培的Teradata系统,在我的TDCH脚本中,我定义了30个映射器。因此,每个将从4安培中提取数据。我得到如下查询:-

'Select "NAME" ,"ADRESS" FROM FROM tdampcopy(ON "TABLENAME" USING AMPList(136,137,138,139)) AS THCALIAS1 .

它正在创建30个带有30个会话ID的查询。当他们在Teradata系统上运行它时,它会导致偏斜,因为在每个查询中只有4个AMP被激活,DBA会终止这些查询。任何指向我们如何克服此问题的指针。

尝试使用
split.by.hash
,至于使用
split.by.amp
,您需要一个分布均匀、偏斜度低的表。如果表中的数据在所有放大器之间分布不均匀,则性能将受到严重影响


Split.by.hash
应该可以为您解决这个问题。

为什么Teradata不本地化生成的查询中涉及的任务?我使用TDAMPCOPY UDF解释了一个查询,所有步骤都是AMP: