Amazon redshift 红移大数据加载，执行Python函数_Amazon Redshift

Amazon redshift 红移大数据加载，执行Python函数

amazon-redshift

Amazon redshift 红移大数据加载，执行Python函数,amazon-redshift,Amazon Redshift,我将大量数据加载到名为responses的红移表中，该表包含大约4.5亿行。在每一行上，我执行一个Python UDF来解析用户代理我根据一列问题id设置了一个分布，大约有150万行。问题在于，回答在问题中的分布并不均匀：前10个问题对应于所有回答中约6000万个问题前20个问题对应7800万个答案当我查看Redshift门户时，在执行Python函数的查询中，我看到只有一个节点（其中有4个节点）在做大部分工作，这就导致了一个问题我是否应该将其他内容设置为分发列（设置问题\u id

我将大量数据加载到名为responses的红移表中，该表包含大约4.5亿行。在每一行上，我执行一个Python UDF来解析用户代理

我根据一列问题id设置了一个分布，大约有150万行。问题在于，回答在问题中的分布并不均匀：

前10个问题对应于所有回答中约6000万个问题
前20个问题对应7800万个答案

当我查看Redshift门户时，在执行Python函数的查询中，我看到只有一个节点（其中有4个节点）在做大部分工作，这就导致了一个问题

我是否应该将其他内容设置为分发列（设置问题\u id完全适合我未来的查询需要）

这有什么办法吗

ahhh，我发现了问题，我从中读取数据并应用解析的表分布错误，将所有数据保留在一个片中，这就是解析速度慢且只有一个节点工作的原因