使用amp拆分的Teradata Hadoop连接器_Teradata_Hortonworks Data Platform

使用amp拆分的Teradata Hadoop连接器

teradata

使用amp拆分的Teradata Hadoop连接器,teradata,hortonworks-data-platform,Teradata,Hortonworks Data Platform,我使用TDCH将数据从Teradata拉到hadoop集群。在TDCH中，我使用了按安培分割选项。我有120安培的Teradata系统，在我的TDCH脚本中，我定义了30个映射器。因此，每个将从4安培中提取数据。我得到如下查询：- 'Select "NAME" ,"ADRESS" FROM FROM tdampcopy(ON "TABLENAME" USING AMPList(136,137,138,139)) AS THCALIAS1 . 它正在创建30个带有30个会话ID的查询。当他们在

我使用TDCH将数据从Teradata拉到hadoop集群。在TDCH中，我使用了按安培分割选项。我有120安培的Teradata系统，在我的TDCH脚本中，我定义了30个映射器。因此，每个将从4安培中提取数据。我得到如下查询：-

'Select "NAME" ,"ADRESS" FROM FROM tdampcopy(ON "TABLENAME" USING AMPList(136,137,138,139)) AS THCALIAS1 .

它正在创建30个带有30个会话ID的查询。当他们在Teradata系统上运行它时，它会导致偏斜，因为在每个查询中只有4个AMP被激活，DBA会终止这些查询。任何指向我们如何克服此问题的指针。

尝试使用

split.by.hash

，至于使用

split.by.amp

，您需要一个分布均匀、偏斜度低的表。如果表中的数据在所有放大器之间分布不均匀，则性能将受到严重影响

Split.by.hash

应该可以为您解决这个问题。

为什么Teradata不本地化生成的查询中涉及的任务？我使用TDAMPCOPY UDF解释了一个查询，所有步骤都是AMP：