Amazon redshift 红移大数据加载,执行Python函数

Amazon redshift 红移大数据加载,执行Python函数,amazon-redshift,Amazon Redshift,我将大量数据加载到名为responses的红移表中,该表包含大约4.5亿行。在每一行上,我执行一个Python UDF来解析用户代理 我根据一列问题id设置了一个分布,大约有150万行。问题在于,回答在问题中的分布并不均匀: 前10个问题对应于所有回答中约6000万个问题 前20个问题对应7800万个答案 当我查看Redshift门户时,在执行Python函数的查询中,我看到只有一个节点(其中有4个节点)在做大部分工作,这就导致了一个问题 我是否应该将其他内容设置为分发列(设置问题\u id

我将大量数据加载到名为responses的红移表中,该表包含大约4.5亿行。在每一行上,我执行一个Python UDF来解析用户代理

我根据一列问题id设置了一个分布,大约有150万行。问题在于,回答在问题中的分布并不均匀:

  • 前10个问题对应于所有回答中约6000万个问题
  • 前20个问题对应7800万个答案
当我查看Redshift门户时,在执行Python函数的查询中,我看到只有一个节点(其中有4个节点)在做大部分工作,这就导致了一个问题

我是否应该将其他内容设置为分发列(设置问题\u id完全适合我未来的查询需要)


这有什么办法吗

ahhh,我发现了问题,我从中读取数据并应用解析的表分布错误,将所有数据保留在一个片中,这就是解析速度慢且只有一个节点工作的原因