sqoop从配置单元表导出到postgresql复制重复行

sqoop从配置单元表导出到postgresql复制重复行,postgresql,hive,duplicates,export,sqoop,Postgresql,Hive,Duplicates,Export,Sqoop,我们正试图将约9亿行从配置单元表复制到Aurora PostgreSQL(AWS)。因为我们在目标表上有一个主键约束,它抛出了违反约束的错误,所以复制失败。 因此,我们尝试删除约束,直到复制完成。在30分钟内成功复制的精确行数。 但是,当我们检查数据时,它有多个重复项,并且缺少来自源的多个行。 意思是,假设我们在源代码中有a行,b行,c行,d行。现在,目的地正好有4行,但它有a行、b行、b行、d行。即b行复制两次,c行跳过 有了这个问题,1。我们无法添加主键。二,。在此过程中,我们将丢失大约10

我们正试图将约9亿行从配置单元表复制到Aurora PostgreSQL(AWS)。因为我们在目标表上有一个主键约束,它抛出了违反约束的错误,所以复制失败。 因此,我们尝试删除约束,直到复制完成。在30分钟内成功复制的精确行数。 但是,当我们检查数据时,它有多个重复项,并且缺少来自源的多个行。 意思是,假设我们在源代码中有a行,b行,c行,d行。现在,目的地正好有4行,但它有a行、b行、b行、d行。即b行复制两次,c行跳过

有了这个问题,1。我们无法添加主键。二,。在此过程中,我们将丢失大约100万个原始行

以下是我们的出口指挥部:

sqoop导出\ -libjars/usr/hdp/current/sqoop client/lib/RedshiftJDBC42-1.2.12.1017.jar\ --驱动程序com.amazon.redshift.jdbc42.driver\ --连接jdbc:postgresql://myClusterEndpoint.rds.amazonaws.com:5455/DB_NAME?sslmode=require&ssl=true \ --表myTable\ --导出目录/data/external/myDataFile\ --以“,”结尾的输入字段\ --用户名myUserNamer\ --密码我的密码\ -米500\

如果有人遇到过这样的问题或知道原因,请分享您的经验并帮助我们解决这个问题。
提前感谢。

使用
--update mode
(可以是allowinsert)和
--update key
检查sqoop导出,其中update key可以是主键

在此过程中,将处理具有重复主键的行